Page 8 - 6.Machine Learning for Data Science
P. 8

หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop  |  7

                  1.4  สิ่งสำคัญในการใชงานการวิเคราะหเชิงทำนาย


                           สำหรับการวิเคราะหเชิงทำนายสิ่งแรกที่จะตองคำนึงถึงในการวิเคราะหคือ การคัดเลือกคุณลักษณะที่เหมาะสมใน

                  การสรางโมเดลการทำนาย โดยเรียกขั้นตอนนี้วาการคัดเลือกคุณลักษณะ (feature selection ซึ่งมีเปาหมายในการหาเซต
                  คุณลักษณะที่เล็กที่สุดที่มีสารสนเทศที่เพียงพอในการฝกสอนโมเดล เพื่อใหการทำนายหรือการแยกแยะมีความแมนยำ


                           การเลือกคุณลักษณะเฉพาะที่ไมเพียงพออาจทำใหความแมนยำในการทำนายลดลงอยางมาก ในขณะที่การ
                  เลือกใชคุณลักษณะเฉพาะที่มากเกินไปแมเพียง 1 คุณลักษณะจะสงผลใหความเปนไปไดของคำตอบเพิ่มขึ้นอยางมหาศาล

                  หากเลือกใชคุณลักษณะเฉพาะจำนวนมาก จะสงผลตอการเพิ่มขึ้นของเวลาในการประมวลผล ในขณะที่ความแมนยำไมได

                  เพิ่มขึ้นเลย โดยที่ 2  คือรูปแบบที่เปนไปไดของเซตคำตอบจากคุณลักษณะจำนวน      คุณลักษณะ เมื่อเลือกใชคุณลักษณะ
                                     
                  สำคัญเฉพาะจำนวน 20 คุณลักษณะจะพบวามีคำตอบที่เปนไปไดถึง 1,048,576 รูปแบบ แตหากใน 20 คุณลักษณะนั้นจะมี
                  เพียง 1 คุณลักษณะที่ไมจำเปน และเราสามารถเลือกออกไดอยางถูกตองความแมนยำของการทำนายจะไมลดลง แตความ

                  ซับซอนหรือความเปนไปไดของเซตคำตอบจะลดลงเหลือเพียง 524,288 รูปแบบ ดังนั้นการลดจำนวนคุณลักษณะลงใหเหลือ

                  เพียงเทาที่จำเปนนั้นถือเปนความทาทายอยางยิ่ง เพราะจะทำใหความซับซอนของการคำนวณต่ำลง ในขณะที่ความแมนยำไม
                  ลดลง


                           สำหรับวิธีการการลดจำนวนเซตของคุณลักษณะสามารถแบงออกไดเปน 3 กลุม คือเทคนิคตัวกรอง (filters ,
                  เทคนิคหอหุม (wrappers และ เทคนิคการฝงตัว (embedded โดยมีรายละเอียดดังนี้


                  1.3.1 ระเบียบวิธีแบบตัวกรอง (filter method

                         ระเบียบวิธีแบบตัวกรอง (filter method  จะสรางคาดัชนีใหตัวแปรแตละตัว ซึ่งเปนตัวเลขของการทดสอบทางสถิติ

                  เชน คาสัมประสิทธิ์สหสัมพันธของเพียรสัน (Pearson's correlation coefficient , คาการขยายสารสนเทศ (information

                  gain , ความรวมกันของขอมูล (mutual information , ความเกี่ยวเนื่องกันสูงสุด (Maximum relevance โดยทั่วไปตัวแปร
                  จะถูกกำหนดลักษณะโดยคาดัชนีสูงสุดที่เลือกในตอนทาย ในกรณีที่มีความซ้ำซอนกันของสองคุณลักษณะใดๆ คุณลักษณะ

                  หนึ่งจะถูกนำออกโดยคาสหสัมพันธ หรือ ความเกี่ยวเนื่องกันหรือเงื่อนไขอื่นๆ

                  1.3.2 ระเบียบวิธีแบบหอหุม (Wrapper method


                           รูปแบบนี้จะนำวิธีการของการทำนายหรือแยกแยะมาใชในการสรางโมเดลดวยเซตยอยของคุณลักษณะและ
                  ประเมินประสิทธิภาพ โดยจะทำงานบนเซตยอยของคุณลักษณะที่แตกตางกันและจะเลือกเซตยอยที่ใหประสิทธิภาพดีที่สุด

                  ขอเสียที่สำคัญของวิธีการนี้คือมีการความซับซอนของคำนวณสูง


                  1.3.3 ระเบียบวิธีแบบฝงตัว (Embedded method

                           รูปแบบนี้คุณลักษณะที่ถูกเลือกจะถูกรวมเขากับสวนของการฝกสอน เรียนรู เพื่อนำไปใชในการสรางโมเดล









                   INTRODUCTION TO IOT ANALYTICS USING HADOOP                                        สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   3   4   5   6   7   8   9   10   11   12   13