Page 22 - 3.Big Data Analytics

P. 22

หลักสูตรการวิเคราะห์ข้อมูลขนาดใหญ่ 21

Section 6: Computing similar documents in big data

6.1 วัตถุประสงคการเรียนรู

1) เขาใจการเปรียบเทียบเอกสารที่เหมือนกันดวยเทคโนโลยีของ Big Data

6.2 กรณีศึกษาการเปรียบเทียบเอกสารที่เหมือนกันดวยเทคโนโลยีของ Big Data

การเปรียบเทียบเอกสารที่เหมือนกันดวยเทคโนโลยีของ Big Data ถือวาเปนสิ่งที่ทาทาย เนื่องจากการมีอยูของ

เอกสารที่อยูในระบบอินเทอรเน็ตนั้นมีอยูเปนจำนวนมาก ดังนั้นการคนหาเอกสารที่มีความใกลเคียงกันจะมีประโยชนอยาง

มาก เชน การจัดกลุมเอกสารที่มีความใกลเคียงกัน การเรียกดูเอกสารที่มีความซ้ำซอนกันเพื่อทำลายทิ้ง เปนตน

ปจจุบันมีเครื่องมือมากมายที่สามารถตรวจสอบความเหมือนกันของเอกสารได เชน โปรแกรมTurnitin เปนตน

โดยใชหลักการพื้นฐานในลักษณะของการคนคืนสารสนเทศ

กรณีศึกษาที่เห็นไดชัดเจนที่สุดคือการตรวจสอบการคัดลอกผลงาน (Plagiarism เนื่องจากการคัดลอกผลงานใน

วงการวิชาการถือวาเปนสิ่งที่ยอมรับไมได รูปที่ 6.1 แสดงตัวอยางหนาจอโปรแกรมสำหรับตรวจสอบการคัดลอกผลงาน ซึ่ง

จะปรากฏเอกสารที่มีความเหมือนกันดานขวา นอกจากนี้ยังบอกถึงรอยละของความเหมือนกันดวย โดยการวิเคราะหความ
เหมือนของเอกสารจะใชเทคนิค Map-Reduced คูกับอัลกอริทึม SCAM (Standard. Copy Analysis Mechanism

รูปที่ 6.1 ตัวอยางหนาจอโปรแกรมสำหรับตรวจสอบการคัดลอกผลงาน

(Petersen, 2016

BIG DATA ANALYTICS สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร

17 18 19 20 21 22 23 24 25 26 27