Page 22 - 3.Big Data Analytics
P. 22
หลักสูตรการวิเคราะห์ข้อมูลขนาดใหญ่ 21
Section 6: Computing similar documents in big data
6.1 วัตถุประสงคการเรียนรู
1) เขาใจการเปรียบเทียบเอกสารที่เหมือนกันดวยเทคโนโลยีของ Big Data
6.2 กรณีศึกษาการเปรียบเทียบเอกสารที่เหมือนกันดวยเทคโนโลยีของ Big Data
การเปรียบเทียบเอกสารที่เหมือนกันดวยเทคโนโลยีของ Big Data ถือวาเปนสิ่งที่ทาทาย เนื่องจากการมีอยูของ
เอกสารที่อยูในระบบอินเทอรเน็ตนั้นมีอยูเปนจำนวนมาก ดังนั้นการคนหาเอกสารที่มีความใกลเคียงกันจะมีประโยชนอยาง
มาก เชน การจัดกลุมเอกสารที่มีความใกลเคียงกัน การเรียกดูเอกสารที่มีความซ้ำซอนกันเพื่อทำลายทิ้ง เปนตน
ปจจุบันมีเครื่องมือมากมายที่สามารถตรวจสอบความเหมือนกันของเอกสารได เชน โปรแกรมTurnitin เปนตน
โดยใชหลักการพื้นฐานในลักษณะของการคนคืนสารสนเทศ
กรณีศึกษาที่เห็นไดชัดเจนที่สุดคือการตรวจสอบการคัดลอกผลงาน (Plagiarism เนื่องจากการคัดลอกผลงานใน
วงการวิชาการถือวาเปนสิ่งที่ยอมรับไมได รูปที่ 6.1 แสดงตัวอยางหนาจอโปรแกรมสำหรับตรวจสอบการคัดลอกผลงาน ซึ่ง
จะปรากฏเอกสารที่มีความเหมือนกันดานขวา นอกจากนี้ยังบอกถึงรอยละของความเหมือนกันดวย โดยการวิเคราะหความ
เหมือนของเอกสารจะใชเทคนิค Map-Reduced คูกับอัลกอริทึม SCAM (Standard. Copy Analysis Mechanism
รูปที่ 6.1 ตัวอยางหนาจอโปรแกรมสำหรับตรวจสอบการคัดลอกผลงาน
(Petersen, 2016
BIG DATA ANALYTICS สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร