Page 8 - 6.Machine Learning for Data Science
P. 8
หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop | 7
1.4 สิ่งสำคัญในการใชงานการวิเคราะหเชิงทำนาย
สำหรับการวิเคราะหเชิงทำนายสิ่งแรกที่จะตองคำนึงถึงในการวิเคราะหคือ การคัดเลือกคุณลักษณะที่เหมาะสมใน
การสรางโมเดลการทำนาย โดยเรียกขั้นตอนนี้วาการคัดเลือกคุณลักษณะ (feature selection ซึ่งมีเปาหมายในการหาเซต
คุณลักษณะที่เล็กที่สุดที่มีสารสนเทศที่เพียงพอในการฝกสอนโมเดล เพื่อใหการทำนายหรือการแยกแยะมีความแมนยำ
การเลือกคุณลักษณะเฉพาะที่ไมเพียงพออาจทำใหความแมนยำในการทำนายลดลงอยางมาก ในขณะที่การ
เลือกใชคุณลักษณะเฉพาะที่มากเกินไปแมเพียง 1 คุณลักษณะจะสงผลใหความเปนไปไดของคำตอบเพิ่มขึ้นอยางมหาศาล
หากเลือกใชคุณลักษณะเฉพาะจำนวนมาก จะสงผลตอการเพิ่มขึ้นของเวลาในการประมวลผล ในขณะที่ความแมนยำไมได
เพิ่มขึ้นเลย โดยที่ 2 คือรูปแบบที่เปนไปไดของเซตคำตอบจากคุณลักษณะจำนวน คุณลักษณะ เมื่อเลือกใชคุณลักษณะ
สำคัญเฉพาะจำนวน 20 คุณลักษณะจะพบวามีคำตอบที่เปนไปไดถึง 1,048,576 รูปแบบ แตหากใน 20 คุณลักษณะนั้นจะมี
เพียง 1 คุณลักษณะที่ไมจำเปน และเราสามารถเลือกออกไดอยางถูกตองความแมนยำของการทำนายจะไมลดลง แตความ
ซับซอนหรือความเปนไปไดของเซตคำตอบจะลดลงเหลือเพียง 524,288 รูปแบบ ดังนั้นการลดจำนวนคุณลักษณะลงใหเหลือ
เพียงเทาที่จำเปนนั้นถือเปนความทาทายอยางยิ่ง เพราะจะทำใหความซับซอนของการคำนวณต่ำลง ในขณะที่ความแมนยำไม
ลดลง
สำหรับวิธีการการลดจำนวนเซตของคุณลักษณะสามารถแบงออกไดเปน 3 กลุม คือเทคนิคตัวกรอง (filters ,
เทคนิคหอหุม (wrappers และ เทคนิคการฝงตัว (embedded โดยมีรายละเอียดดังนี้
1.3.1 ระเบียบวิธีแบบตัวกรอง (filter method
ระเบียบวิธีแบบตัวกรอง (filter method จะสรางคาดัชนีใหตัวแปรแตละตัว ซึ่งเปนตัวเลขของการทดสอบทางสถิติ
เชน คาสัมประสิทธิ์สหสัมพันธของเพียรสัน (Pearson's correlation coefficient , คาการขยายสารสนเทศ (information
gain , ความรวมกันของขอมูล (mutual information , ความเกี่ยวเนื่องกันสูงสุด (Maximum relevance โดยทั่วไปตัวแปร
จะถูกกำหนดลักษณะโดยคาดัชนีสูงสุดที่เลือกในตอนทาย ในกรณีที่มีความซ้ำซอนกันของสองคุณลักษณะใดๆ คุณลักษณะ
หนึ่งจะถูกนำออกโดยคาสหสัมพันธ หรือ ความเกี่ยวเนื่องกันหรือเงื่อนไขอื่นๆ
1.3.2 ระเบียบวิธีแบบหอหุม (Wrapper method
รูปแบบนี้จะนำวิธีการของการทำนายหรือแยกแยะมาใชในการสรางโมเดลดวยเซตยอยของคุณลักษณะและ
ประเมินประสิทธิภาพ โดยจะทำงานบนเซตยอยของคุณลักษณะที่แตกตางกันและจะเลือกเซตยอยที่ใหประสิทธิภาพดีที่สุด
ขอเสียที่สำคัญของวิธีการนี้คือมีการความซับซอนของคำนวณสูง
1.3.3 ระเบียบวิธีแบบฝงตัว (Embedded method
รูปแบบนี้คุณลักษณะที่ถูกเลือกจะถูกรวมเขากับสวนของการฝกสอน เรียนรู เพื่อนำไปใชในการสรางโมเดล
INTRODUCTION TO IOT ANALYTICS USING HADOOP สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร