Page 71 - 高中生活AI大智慧-電子書_Neat
P. 71

Hadoop 使用分散式檔案系統 (Hadoop Distributed File
               System, HDFS ),在儲存資料時,會將同一份檔案切割成小份,將每
               一小份製作多個備份後分別儲存在不同位置。即使部分資料損毀,也
               可使用其他備份重製出完整的資料。這種儲存技術被用於突破巨量資
               料難以儲存的困境,同時確保資料的完整性,因此能成功累積資料並
               持續增加資料內容。

               3. 推薦大數據分析工具:Hadoop MapReduce 與 Spark
                  1
                    Hadoop MapReduce:Hadoop MapReduce 是 Hadoop 的延伸
                     項目之一,可將儲存在 HDFS 中的資料調出、統計、處理後再回
                     傳數據。整個 Hadoop 系統使用 HDFS 儲存資料,並交由 Hadoop

                     MapReduce 處理資料,Hadoop MapReduce 為最常見的大數據分
                     析軟體之一。
                    Spark:Spark 是近年新型的大數據分析軟體,最快運算速度比 Ha-
                  2
                     doop MapReduce 還快近 100 倍。由於 Hadoop MapReduce 在
                     運算的同時儲存資料,資料需在記憶體與處理器之間不斷轉化。而
                     Spark 使用記憶體內運算技術,可直接在記憶體內運算,因此省下
                     資料轉換時的能源與時間。
                    不過 Spark 只能分析大數據,不能儲存大數據,使用時仍須搭配
               HDFS 儲存系統,這也是 Hadoop 難以被取代的主要原因。

               4. 推薦大數據視覺化工具:Tableau 與 Wordcloud
                    Tableau:Tableau 可將大數據轉換為圖表、地圖等視覺化資料,並
                  1
                     可以配合多種資料形式,包括 Excel、txt、xml 等,即使沒有科技
                     背景的使用者也很容易操作,僅需平移、拖放等操作,就能呈現已
                     分析過的資料。

                  2
                    Wordcloud:Wordcloud,又稱為文字雲,用簡單易懂方式呈現單
                     一字詞在文件中出現的次數多寡與比例,是常見的大數據視覺化方
                     式,目前網路上也可找到處理少量資料的文字雲製作工具。




                                                                                           69
   66   67   68   69   70   71   72   73   74   75   76