Page 26 - 5.Introduction to IoT Analytics using hadoop
P. 26

หลักสูตรการวิเคราะหอินเทอรเน็ตของทุกสรรพสิ่งเบื้องตนดวย Hadoop   25



                      Big Data คืออะไร

                           คำถามที่ตามมาก็คือ แลวขอมูลมันตองมากแคไหนเราถึงจะเรียกมันวา Big Data ? เคาวากันวาจะเรียก Big Data

                  ได ขอมูลจะตองมีลักษณะดังนี้


                              -  Volume อยางแรกเลยคือขอมูลจะตองมาก เชน 1000TB ขึ้นไป
                              -  Velocity นอกจากมากแลวขอมูลจะตองโตเร็ว อาจจะมีขนาดใหญขึ้น 1TB ตอวัน เปนตน

                              -  Variety อีกเรื่องคือขอมูลนั้นจะตองมีความหลากหลาย คืออาจจะมีหลาย format แลวแตละ format

                                  ตองใชวิธีวิเคราะหที่แตกตางกันดวย

                           แลวทำไมจะตองมาแยกแยะดวยวาขอมูลตางๆเปน Big Data แลวหรือยัง ? คำตอบคือ เพราะ tool ที่ใชสำหรับ

                  Big Data นั้น มันไมเหมาะกับขอมูลนอยๆ หากขอมูลยังไมถึงขั้นเรียกวา Big Data แลวนั้นจะแนะนำใหใช tool ทั่วไปจะ
                  เหมาะสมกวา พูดงายๆ ก็คือ Big Data มันคือขอมูลที่มีปริมาณมากและมีความซับซอนสูงจนไมเหมาะที่จะนำมาวิเคราะหดวย

                  tool ทั่วไปนั่นเอง


                  3.3  ความลำบากในการวิเคราะห Big Data

                           จากลักษณะของ Big Data ทั้ง 3 ขอ ขางตน ถาจะใชวิธีวิเคราะหขอมูลแบบเดิมๆ จะตองเจอกับปญหาอะไรบาง

                  นั้นคือ


                              1.  ที่เก็บขอมูล ลองคิดดูวาถาจะตองหาที่มาเก็บขอมูลที่ไดมาจากระบบมาวันละ 1TB จะตองเตรียม HDD
                                  เอาไวเยอะแคไหน


                              2.  ประสิทธิภาพ แลวตอใหไปซื้อ HDD มาเพิ่ม เพื่อที่จะเก็บขอมูลใหไดทั้งหมด ก็จะเจอปญหาเกี่ยวกับ
                                  access time ของ HDD ที่คอนขางสูง ทำใหการประมวลผลใชเวลานานมากเลยกวาจะไดผลลัพธ

                                  ออกมา แลวบางทีก็อยากวิเคราะหขอมูลแบบ real-time

                              3.  เครื่องคอมพิวเตอรสมมติวามีเงินมากพอที่จะใช SSD แทน HDD แลวเตรียมความจุไวมากพอที่จะเก็บ

                                  ขอมูล Big Data ได ปญหาตอมาที่จะตองเจอก็คือจะตองเตรียมเครื่องคอมพิวเตอรที่จะเอาไวใชในการ

                                  วิเคราะหขอมูลเหลานั้น หากใชแคเครื่องเดียวมาคำนวณขอมูลปริมาณมหาศาล กวาจะเสร็จก็คงเปน
                                  วันๆ แลวผลลัพธที่ไดมาก็จะกลายเปนขอมูลในอดีตไปซะแลว ดังนั้นจะตองเตรียมเครื่องคอมพิวเตอร

                                  เอาไวเยอะพอสมควร เพื่อที่จะทำใหไดผลลัพธเร็วเทาที่ตองการ

                              4.  ตนทุน สุดทายแลวก็จะเห็นวาเม็ดเงินที่จะตองลงไปกับ Big Data นั้นไมใชนอยๆ เลย


                            ปญหาที่วามานี้ รับรองวาจะตองเจอแนโดยที่จะตองเตรียมพื้นที่จัดเก็บขอมูลและเครื่องคอมพิวเตอรมาใหพรอม

                  กอนเลย เมื่อทุกอยางพรอมแลวเวลาใชงานจริงปญหาที่จะตามมาทีหลังก็คือ








                   INTRODUCTION TO IOT ANALYTICS USING HADOOP     สถาบันสหวิทยาการดิจิทัลและหุนยนต มหาวิทยาลัยเทคโนโลยีราชมงคลพระนคร
   21   22   23   24   25   26   27   28   29   30   31