Page 71 - 高中生活AI大智慧-電子書_Neat
P. 71
Hadoop 使用分散式檔案系統 (Hadoop Distributed File
System, HDFS ),在儲存資料時,會將同一份檔案切割成小份,將每
一小份製作多個備份後分別儲存在不同位置。即使部分資料損毀,也
可使用其他備份重製出完整的資料。這種儲存技術被用於突破巨量資
料難以儲存的困境,同時確保資料的完整性,因此能成功累積資料並
持續增加資料內容。
3. 推薦大數據分析工具:Hadoop MapReduce 與 Spark
1
Hadoop MapReduce:Hadoop MapReduce 是 Hadoop 的延伸
項目之一,可將儲存在 HDFS 中的資料調出、統計、處理後再回
傳數據。整個 Hadoop 系統使用 HDFS 儲存資料,並交由 Hadoop
MapReduce 處理資料,Hadoop MapReduce 為最常見的大數據分
析軟體之一。
Spark:Spark 是近年新型的大數據分析軟體,最快運算速度比 Ha-
2
doop MapReduce 還快近 100 倍。由於 Hadoop MapReduce 在
運算的同時儲存資料,資料需在記憶體與處理器之間不斷轉化。而
Spark 使用記憶體內運算技術,可直接在記憶體內運算,因此省下
資料轉換時的能源與時間。
不過 Spark 只能分析大數據,不能儲存大數據,使用時仍須搭配
HDFS 儲存系統,這也是 Hadoop 難以被取代的主要原因。
4. 推薦大數據視覺化工具:Tableau 與 Wordcloud
Tableau:Tableau 可將大數據轉換為圖表、地圖等視覺化資料,並
1
可以配合多種資料形式,包括 Excel、txt、xml 等,即使沒有科技
背景的使用者也很容易操作,僅需平移、拖放等操作,就能呈現已
分析過的資料。
2
Wordcloud:Wordcloud,又稱為文字雲,用簡單易懂方式呈現單
一字詞在文件中出現的次數多寡與比例,是常見的大數據視覺化方
式,目前網路上也可找到處理少量資料的文字雲製作工具。
69