Page 80 - 高中生活AI大智慧-電子書_Neat
P. 80
3. 強化式學習
增強式學習的特徵是不需給機器任何資料,讓機器透過獎懲機
制進行目標導向學習,這也是和大自然生物與人類最相似的學習方式
( 如圖 4-3)。
機器透過環境的正向、負向回饋 (positive / negative reward),
從中自我學習,並逐步形成對回饋刺激 (stimulus) 的預期,做出越來
越有效率達成目標的行動 (action),在過程中,達成獲取最大利益的
目標。
最有名的增強式學習的例子就是轟動全球的 AlphaGo 對弈世界
圍棋第一高手,是機器學習發展以來的一大里程碑,AlphaGo 即是工
作團隊透過大量職業比賽的棋譜來「訓練」其演算法,讓 AlphaGo
在短短的兩年內就站上職業圍棋的頂端,打敗了人類。
(圖 4-3:增強式學習)
機器學習的技術分枝很多,上述所說監督式、非監督式、增強式
學習都只是大致的分類,而實際應用該採用哪一種演算法模型,則需
要依照需求目標、資料質量與現實考量而定,沒有標準答案,我們也
曾介紹機器學習的另一個領域:深度學習,它也是一個從資料中學習
78