Page 69 - 高中生活AI大智慧-電子書_Neat
P. 69
3-3 大數據挖掘、處理、分析工具
大數據應用是指針將特定的數據資料集成于應用大數據,以獲得
有價值信息的技術。對於不同研究領域、不同行業、不同業務,或同
一領域不同公司的相同業務來說,由於其研究需求、數據集合和分析
挖掘目的間的差異,所運用的大數據技術和大數據信息系統也可能有
著相當大的不同。
大數據強調的不是數據如何定義,而是如何使用,最大的挑戰在
於判斷哪些技術能更好地使用數據,以及大數據最適切的應用情況,
與傳統的資料庫相比,開源的大數據分析工具顯得格外重要,例如
Hadoop 為 Apache 軟體基金會底下的一個開放原始碼,具社群基
礎,而且完全免費的軟體,是一個能夠儲存並管理大量資料的大數據
框架,被各種組織和產業廣為採用,非常受歡迎,其崛起也說明了非
結構化數據服務的價值。
在說明如何收集數據之前,首先就要大數據的類型進行分類:
1. 傳統企業數據:包括消費數據、庫存數據以及帳目數據等。
2. 機器和傳感器數據:包括呼叫記錄、智慧儀表、工業設備傳感器、
設備日誌、交易數據等。
3. 社交數據:包括用戶行為記錄、反饋數據等,如 IG( Instagram )、
Facebook 這樣的社交媒體平臺。
大數據的收集、處理、分析步驟大致有四:
第一步:取得數據
人們隨時隨地都在產生數據,就連你上學時的行走路線,都可以
成為商家選擇新店地址的參考資料,若是擁有大量使用者的企業,蒐
集顧客的活動紀錄就可達到以數據預測未來市場需求的目標;若是較
小型的企業,也可以主動邀請使用者填寫問卷,逐步累積資訊量以取
得數據。
67