Page 19 - 3.Big Data Analytics
P. 19

หลักสูตรการวิเคราะห์ข้อมูลขนาดใหญ่   18




                             2 การจัดระเบียบขอมูลดวยการจัดทำดัชนี: เมื่อโปรแกรมรวบรวมขอมูลที่พบบนหนาเว็บ ระบบของ

                         Google จะทำการจัดทำดัชนี (index เพื่อการเขาถึงที่รวดเร็วขึ้น คลาย ๆ กับการจัดเก็บขอมูลดัชนีที่อยูในทาย
                         หนังสือ เมื่อมีการพบหนาเว็บใหม ก็จะมีการจัดทำดัชนีเพิ่มเติมไปเรื่อย ๆ ดังรูปที่ 4.2































                                            รูปที่ 4.2 การจัดระเบียบขอมูลดวยการจัดทำดัชนี


                                                         (Google, 2019
                             3 การคนหาเพจเปาหมายและผลคะแนน: หากเราตองการคนหาคำวา “เสือชีต าห” แนนอนวาขอมูลที่ไดนั้น

                         อาจมีมากเปน 1,000,000 เพจที่เกี่ยวของ ดังนั้นคำถามที่นาสนใจคือ ทำอยางไรสำหรับการแสดงผลขอมูลที่
                         เกี่ยวของ โดยใหเรียงลำดับเพจใหตรงเปาหมายที่สุด ซึ่ง Google นั้นมีขั้นตอนวิธีเฉพาะ โดยใชวิธีการคำนวณ

                         น้ำหนักของคำที่เกี่ยวของ เชน a, an, the (article  in, และ on (preposition  เปนตน คำพวกนี้สวนมาก

                         ความสำคัญจะนอยกวาคำเฉพาะ ดังนั้นน้ำหนักในการนำมาคำนวณคะแนนจะนอยกวา เปนตน





























                   BIG DATA ANALYTICS                             สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   14   15   16   17   18   19   20   21   22   23   24