Page 22 - 3.Big Data Analytics
P. 22

หลักสูตรการวิเคราะห์ข้อมูลขนาดใหญ่   21




                  Section 6: Computing similar documents in big data



                  6.1 วัตถุประสงคการเรียนรู

                           1)  เขาใจการเปรียบเทียบเอกสารที่เหมือนกันดวยเทคโนโลยีของ Big Data


                  6.2 กรณีศึกษาการเปรียบเทียบเอกสารที่เหมือนกันดวยเทคโนโลยีของ Big Data

                           การเปรียบเทียบเอกสารที่เหมือนกันดวยเทคโนโลยีของ Big Data ถือวาเปนสิ่งที่ทาทาย เนื่องจากการมีอยูของ

                  เอกสารที่อยูในระบบอินเทอรเน็ตนั้นมีอยูเปนจำนวนมาก ดังนั้นการคนหาเอกสารที่มีความใกลเคียงกันจะมีประโยชนอยาง

                  มาก เชน การจัดกลุมเอกสารที่มีความใกลเคียงกัน การเรียกดูเอกสารที่มีความซ้ำซอนกันเพื่อทำลายทิ้ง เปนตน

                            ปจจุบันมีเครื่องมือมากมายที่สามารถตรวจสอบความเหมือนกันของเอกสารได เชน โปรแกรมTurnitin เปนตน

                  โดยใชหลักการพื้นฐานในลักษณะของการคนคืนสารสนเทศ

                           กรณีศึกษาที่เห็นไดชัดเจนที่สุดคือการตรวจสอบการคัดลอกผลงาน (Plagiarism เนื่องจากการคัดลอกผลงานใน

                  วงการวิชาการถือวาเปนสิ่งที่ยอมรับไมได รูปที่ 6.1 แสดงตัวอยางหนาจอโปรแกรมสำหรับตรวจสอบการคัดลอกผลงาน ซึ่ง

                  จะปรากฏเอกสารที่มีความเหมือนกันดานขวา นอกจากนี้ยังบอกถึงรอยละของความเหมือนกันดวย โดยการวิเคราะหความ
                  เหมือนของเอกสารจะใชเทคนิค Map-Reduced คูกับอัลกอริทึม SCAM (Standard. Copy Analysis Mechanism




























                                    รูปที่ 6.1 ตัวอยางหนาจอโปรแกรมสำหรับตรวจสอบการคัดลอกผลงาน


                                                        (Petersen, 2016











                   BIG DATA ANALYTICS                             สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   17   18   19   20   21   22   23   24   25   26   27