จอมไต่เว็บ Crawler และ PageRank
Page เริ่มที่จะคิดว่า เราจะทำไงถึงจะรู้ว่า ลิงค์ใดบ้างที่ลิงค์มายังเว็บหนึ่งๆ หลังจากศึกษาเกี่ยวกับเรื่องนี้มาได้ไม่กี่เดิอน Page ก็พบว่า จริงๆแล้ว เรื่องของการลิงค์มาของเอกสารนี่ มีกันมานานแล้วในวงการวิชาการ
ก็คือเรื่องของ ผลงานวิชาการ นั่นเอง คือโดยปกติแล้ว หากนักวิชาการท่านใด คิดทฤษฏีอะไรออกมาได้ใหม่ๆ หรือค้นพบอะไรใหม่ๆ หรือต้องการจะแก้ไขสิ่งที่มีอยู่แล้ว ก็จะทำการตีพิมพ์ผลงานของตนเองในวารสารวิชาการ (Journal) โดยจะต้องอ้างอิงถึงที่มาของความรู้ หรือ ผลงานที่มีมาก่อนของคนอื่น หรือที่ใกล้เคียง ก็เพื่อให้องค์ความรู้ใหม่ๆ ที่ตี พิมพ์ มีรากฐานจากองค์ความรู้ ที่ได้รับการพิสูจน์แล้วนั่นเอง ดังนั้น ผลงานวิชาการ ไหนที่ได้รับการอ้างถึง (Citation) บ่อยๆ จากนักวิชาการอื่นๆ แสดงว่า ผลงานวิชาการชิ้นนั้นได้รับการยอมรับอย่างจริง ในวงการวิชาการเรามีตัวชี้วัดกันเลยว่า ผลงานหนึงๆ มีการถูกอ้างถึงมากน้องเพียงใดเราเรียกดัชนีตัวนี้ว่า Citation index ซึ่งการอ้างอิงด้านวิชาการถึอเป็นเรื่องใหญ่ ใหญ่ขนาดไหนครับ ก็ใหญ่พอที่จะมีวิชาที่ว่าด้วยเรื่องนี้โดยเฉพาะเลย คือวิชา bibliometrics
ตอนที่ Tim Berners-Lee (ตอนที่ได้รับการแต่งตั้งเป็น Sir Tim Berners-Lee เรียบร้อยแล้ว) วิศวกรอิสระของ CERN คิดค้น World Wide Web ขึ้นเป็นครั้งแรกของโลก คุณ Tim แกก็คิดว่า เราน่าจะมีวิธีที่ละลิงค์ผลงานวิชาการของนักวิชาการเข้าด้วยกันเลย ไม่ต้องมานั่งกำหนดรูปแบบที่ยุ่งยาก คุณ Tim ก็เลย คิดเรื่องของ Hypertext ขึ้นมา แต่สิ่งที่ Page กำลังทำเป็นการ Reverse Engineer ของ WWW เพราะเค้าต้องการค้นหาถึงที่มา ต้นตอของเอกสารที่ลิงค์กันนั่นเอง
ด้วยความรู้นี้ งานของเค้าก็ง่ายขึ้นเยอะรับ ที่เหลือก็คือว่าเค้าจะต้องหาให้ได้ว่า ใครอ้างอิงจากใคร โดยอัตโนมัติ พูดง่ายๆว่าเค้าต้องวาด กราฟของอินเตอร์เน็ต ขึ้นมา บนเครื่องคอมพิวเตอร์ของเค้านั่นเอง
แน่นอนว่า กราฟที่เค้าจะสร้างขึ้น จะมีความซับซ้อนสูง และการคำนวนจำนวนลิงค์ ที่เชื่อมหากันก็ทำได้ยาก เนื่องจากกราฟมีการเจริญเติบโตเรื่อยๆ เพราะความซับซ้อนของข้อมูลสูง ดังนั้นสุตรการคำนวณเพื่อคะแนนแต่ล่ะหน้า ก็จะมีความซับซ้อนด้วย ตรงนี้นี่เอง ที่ทำให้ Brin กระโดดเข้ามาในโปรเจ็คนี้
ด้วยพื้นเพ back ground เดิมของ Brin ที่เป็นนักคณิตศาสตร์ ที่จัดว่าเข้าขั้นเป็นอัจฉริยะคนหนึ่ง มีเชื้อสายเป็นคนรัสเซีย เกิดที่รัสเซีย มีพ่อเป็นนักวิทยาศาสตร์ชาวรัสเซีย ที่ทำงานที่องค์การ NASA และ เป็นอาจารย์สอนคณิตศาสตร์ที่มหาวิทยาลัยแมรี่แลนต์ โดยครอบครัวเค้าอพยบ มาอยู่ที่อเมริการ ตอนที่ Brin อายุแค่ 6 ขอบ Brin เรียนจบม.ปลาย 1 ปีก่อนชาวบ้าน และหลังจากจบปริญญาตรี ที่แมรี่แลนด์ Brin ก็มาต่อเอกทันทีที่ Stanford
ตัว Brin เองก็ต้องมองหาโปรเจกปริญญาเอก ด้วยเช่นกัน แต่เค้าเลือกไปเลือกมาเกือบ 2 ปีแล้ว ก็ยังหาหัวข้อลงตัวไม่ได้ จนได้เข้ามาคลุกครีกับโปรเจ็คของ Page ก็เกิดความสนใจ ที่จะเข้ามาทำในส่วนคณิตศาสตร์ของโปรเจกนี้ และอีกสาเหตุก็คือเค้าชอบ Page
การสร้างกราฟของอินเตอร์เน็ตโดยอัตโนมัติ เป็นจุดเริ่มต้นให้ Page เขียนโปรแกรมเล็กๆประเภท Crawler ขึ้นมาตัวหนึ่ง ในห้องนอน ตอนที่ Page เริ่มเขียน crawler นี่ จำนวนหน้าเว็บทั่วโลกก็มีอยู่ประมาณ 10 ล้านหน้าเห็นจะได้ แต่จำนวนลิงค์ที่เชื่อมกันอยู่นี่คงนับไม่ถ้วน โดยหวังจะให้เจ้า Crawler ได้ไปเก็บข้อมูลมาสร้างเป็นกราฟโดยอัตโนมัติ ในตอนนั้น เค้าอาจจะยังไม่รู้หรอก ว่าโปรแกรมเล็กๆที่เค้าเริ่มเขียนในห้องนอน จะเป็นสิ่งที่ประสบความสำเร็จที่สุดในโลกต่อจาก Internet
หลายคนคงอาจจะยังไม่คุ้นกับคำว่า Crawler ผมขยายความให้อีกนิด Crawler เป็นโปรแกรมเล็กๆโปรแกรมนึง ที่ทำให้หน้าที่ไปดึงเว็บเพจต่างๆมา ซึ่งปกติแล้วข้อมูลแสดงหน้าเว็บไซด์ที่เราเห็นนี่ เป็นแค่ Text File หรือ ข้อมูลตัวอักษรธรรมดาๆนี่เอง พอโปรแกรมประเภท บราวเซอร์ เช่น IE ได้รับข้อมูลพวกนี้แล้วมันก็ทำการแปล และแสดงให้เป็นสิ่งที่คุณเห็นบนหน้าจอทันที หลังจากโปรแกรมประเภท crawlwer ได้รับข้อมูลแล้ว มันก็จะทำการแยกข้อมูล และลิงค์ (ที่จะไปหน้าอื่น)ออกมา สมมุติว่าหน้าที่คุณอ่านอยู่ตอนนี้นี่ มีลิงค์ออกจากมันไป อีกประมาณ 30 ลิงค์ เจ้าตัว crawler ก็จะทำการจัดการเอาลิงค์เหล่านี้มาเข้าคิวเรียงกันไว้ แล้วก็ไล่ไต่ไปทีละลิงค์ตามคิว แล้วก็ไปดึงข้อมูลหน้านั้นมา แล้วแยกลิงค์แบบเดิมอีก แล้วลิงค์ที่ได้จากหน้าถัดไปนี้ก็จะเอามาเข้าคิว เรียงต่อกันไป เรื่อยๆ เพื่อจะทำการไปดึงข้อมูลมาในเวลาถัดๆไป เพราะฉะนั้นมันก็เลยให้ความรู้สึกคล้ายๆกับว่า เจ้า crawler มันค่อยๆคืบคลานออกจากจุดเริ่มต้นไปทีละน้อย ทีละน้อย
และแล้ว ในเดือนมีนาคม 1996 (เพียงแค่ไม่ถึงปีจากที่เค้าเริ่มศึกษา) Page ก็ปล่อยเจ้า Crawler ตัวแรกให้เริ่มทำงาน โดยไต่จากหน้าเว็บเพจของเค้าเอง ที่อยู่บนเว็บไซท์มหาวิทยาลัยสแตนฟอร์ด
เจ้า crawler เวอร์ชั่นแรกของ Page ไต่ไปตามเว็บเพื่อเก็บแค่ ชื่อเว็บ และข้อมูลใน header เท่านั้นเอง แต่ก็ถือว่า เป็นจุดเริ่มอย่างเป็นรูปธรรมของ Google (ที่ในปัจจุบันกลายเป็น ซุปเปอร์ crawler ไปแล้ว เพรามันไต่ไปเก็บข้อมูลทุกอย่าง ของทุกหน้าเว็บ) เพราะตอนนั้นขืนเก็บทุกอย่าง ทรัพยากรของระบบ เช่น memory หรือ ฮาร์ดดิสต์ ที่จะต้องใช้ในการจัดการกับข้อมูลเหล่านี้ ก็คงต้องมีขนาดใหญ่มหึมา และมันก็มากเกินกว่าจะเป็นโปรเจ็คของเด็กนักเรียนคนนึง
โปรแกรมเล็กๆที่ถูกปล่อยออกจากห้องนอนที่หอพักนักศึกษาคนนึง ได้กลายเป็นปรากฏการณ์ ที่ใหญ่ที่สุดรองจากการคิดค้นอินเตอร์เน็ต ได้อย่างไร อ่านหัวข้อต่อไปครับ....
: ผศ.ดร. บุญญฤทธิ์ อุยยานนวาระ
: วิชาการ.คอม
|