Page 80 - 高中生活AI大智慧-電子書

Page 80 - 高中生活AI大智慧-電子書_Neat

P. 80

3. 強化式學習
增強式學習的特徵是不需給機器任何資料，讓機器透過獎懲機
制進行目標導向學習，這也是和大自然生物與人類最相似的學習方式

( 如圖 4-3）。
機器透過環境的正向、負向回饋 (positive / negative reward)，

從中自我學習，並逐步形成對回饋刺激 (stimulus) 的預期，做出越來
越有效率達成目標的行動 (action)，在過程中，達成獲取最大利益的
目標。

最有名的增強式學習的例子就是轟動全球的 AlphaGo 對弈世界
圍棋第一高手，是機器學習發展以來的一大里程碑，AlphaGo 即是工
作團隊透過大量職業比賽的棋譜來「訓練」其演算法，讓 AlphaGo

在短短的兩年內就站上職業圍棋的頂端，打敗了人類。

（圖 4-3：增強式學習）

機器學習的技術分枝很多，上述所說監督式、非監督式、增強式
學習都只是大致的分類，而實際應用該採用哪一種演算法模型，則需
要依照需求目標、資料質量與現實考量而定，沒有標準答案，我們也
曾介紹機器學習的另一個領域：深度學習，它也是一個從資料中學習

75 76 77 78 79 80 81 82 83 84 85