Page 19 - 3.Big Data Analytics
P. 19
หลักสูตรการวิเคราะห์ข้อมูลขนาดใหญ่ 18
2 การจัดระเบียบขอมูลดวยการจัดทำดัชนี: เมื่อโปรแกรมรวบรวมขอมูลที่พบบนหนาเว็บ ระบบของ
Google จะทำการจัดทำดัชนี (index เพื่อการเขาถึงที่รวดเร็วขึ้น คลาย ๆ กับการจัดเก็บขอมูลดัชนีที่อยูในทาย
หนังสือ เมื่อมีการพบหนาเว็บใหม ก็จะมีการจัดทำดัชนีเพิ่มเติมไปเรื่อย ๆ ดังรูปที่ 4.2
รูปที่ 4.2 การจัดระเบียบขอมูลดวยการจัดทำดัชนี
(Google, 2019
3 การคนหาเพจเปาหมายและผลคะแนน: หากเราตองการคนหาคำวา “เสือชีต าห” แนนอนวาขอมูลที่ไดนั้น
อาจมีมากเปน 1,000,000 เพจที่เกี่ยวของ ดังนั้นคำถามที่นาสนใจคือ ทำอยางไรสำหรับการแสดงผลขอมูลที่
เกี่ยวของ โดยใหเรียงลำดับเพจใหตรงเปาหมายที่สุด ซึ่ง Google นั้นมีขั้นตอนวิธีเฉพาะ โดยใชวิธีการคำนวณ
น้ำหนักของคำที่เกี่ยวของ เชน a, an, the (article in, และ on (preposition เปนตน คำพวกนี้สวนมาก
ความสำคัญจะนอยกวาคำเฉพาะ ดังนั้นน้ำหนักในการนำมาคำนวณคะแนนจะนอยกวา เปนตน
BIG DATA ANALYTICS สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร