Page 80 - 高中生活AI大智慧-電子書_Neat
P. 80

3. 強化式學習
                  增強式學習的特徵是不需給機器任何資料,讓機器透過獎懲機
             制進行目標導向學習,這也是和大自然生物與人類最相似的學習方式

             ( 如圖 4-3)。
                  機器透過環境的正向、負向回饋 (positive / negative reward),

             從中自我學習,並逐步形成對回饋刺激 (stimulus) 的預期,做出越來
             越有效率達成目標的行動 (action),在過程中,達成獲取最大利益的
             目標。

                  最有名的增強式學習的例子就是轟動全球的 AlphaGo 對弈世界
             圍棋第一高手,是機器學習發展以來的一大里程碑,AlphaGo 即是工
             作團隊透過大量職業比賽的棋譜來「訓練」其演算法,讓 AlphaGo

             在短短的兩年內就站上職業圍棋的頂端,打敗了人類。














                             (圖 4-3:增強式學習)


                  機器學習的技術分枝很多,上述所說監督式、非監督式、增強式
             學習都只是大致的分類,而實際應用該採用哪一種演算法模型,則需
             要依照需求目標、資料質量與現實考量而定,沒有標準答案,我們也
             曾介紹機器學習的另一個領域:深度學習,它也是一個從資料中學習







     78
   75   76   77   78   79   80   81   82   83   84   85