The Prototype of the Massive Webgraph Framework

ความยากของการศึกษาเวบกราฟอยู่ที่ปริมาณเวบเพจมหาศาล ในปัจจุบันการศึกษาเวบกราฟถูกนำไปใช้ในหลายจุดประสงค์ อาธิเช่น การให้คะแนนความสำคัญของเวบเพจ การตรวจจับเวบสแปม การคัดแยกกลุ่มสังคม งานวิจัยนี้ได้นำเสนอต้นแบบกรอบการทำงานเพื่อสร้างเวบกราฟ เวบกราฟผกผัน และ API Web Service ผลลัพท์ที่ได้จากงานวิจัยนี้สามารถนำไปใช้คำนวณค่าเพจแรงค์ด้วยวิธี Power Method กรอบการทำงานนี้ยังเป็นต้นแบบระบบพื้นฐานของเสิร์ชเอนจิ้นสำหรับประเทศไทย งานวิจัยนี้ได้ใช้ตัวอย่างชุดข้อมูลทดสอบ เดือนสิงหาคมและกันยายน ปี 2008 จากโครงการ WebBase พัฒนาโดย มหาวิทยาลัย Stanford จากการทดลองพบว่ากรอบการทำงานที่ได้ออกแบบไปนั้นสามารถทำงานได้อย่างมีประสิทธิภาพบนหน่วยประมวลผล Core 2 Duo 3.0 GHz. และหน่วยความจำขนาด 2 GB Full Technical Report

Link

Project hosting http://code.google.com/p/webgraph-th/

SVN

$ svn checkout https://webgraph-th.googlecode.com/svn/trunk/ webgraph-th --username infoklainfo
$ svn checkout http://webgraph-th.googlecode.com/svn/trunk/ webgraph-th-read-only

Pre-installation on Linux

sudo apt-get install python2.6
sudo apt-get install python-psyco
sudo apt-get install python-profiler

Installation Guide on Windows

Comment

  • Python ช้ามาก
  • จริงๆแล้ว framework ของเราควรจะทำงานได้เร็ว (เขียนด้วย C) แล้วมีภาษาอื่นๆ มารองรับ (Java, Python, C, C++)
  • เนื่องจากว่า Haveliwala เป็น format standard ด้านการคำนวณ PageRank จึงสามารถเอา binary file ไปใช้ได้เลย
  • Network API ไม่สามารถส่ง list ของ srcid ได้ทั้งหมด (ติดที่ Apache)
  • [Slide] ควรเขียนเป็น วลี ดีกว่าเขียนเป็นประโยค
  • อื่นๆ
    • การคำนวณ backlink ใช้ mem ไปเท่าไหร่
    • รู้ได้อย่างไรว่าผลลัพท์ถูกต้อง
    • ควรเอาข้อมูล metadata มาแสดงผลเป็นตารางด้วย
    • ไม่ได้บอกว่า query access time ของ network api เป็นเท่าไหร่
 
webgraph.txt · Last modified: 2010/02/12 16:03 by klainfo · [Old revisions]
Recent changes RSS feed Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki