Page 51 - 高中生活AI大智慧-電子書_Neat
P. 51

目標更近或更遠, 如果更接近目標則給予「 正向回饋(positive
               feedback)」, 如 果 更 遠 離 目 標 則 給 予「 負 向 回 饋(negative
               feedback)」,這樣最後的決策就會愈來愈接近正確的答案。


                    強化式學習以獎勵方式來訓練電腦演算法,是「非監督式學習」
               的一種。如同電玩經常對有提高功力的玩家提示,完成一個任務,提
               升到某個等級就有獎勵,這些提示協助玩家學習如何為了闖下一關而
               增強自己的功力。強化式學習如同電玩的設計概念,電腦演算法會試

               著預測完成特定目標的最佳方法,對完成目標採取行動時會獲得獎
               勵,再預測下一個最佳步驟逐步獲得最大的終極獎勵。因此,下圍棋
               或西洋棋時,AI 會依照對手的每一步棋來修正下一步要如何走。市場

               上的自動駕駛車,也是依照路況的變化來修正下一步行動。

                    DeepMind 公司建立於 2010 年,於 2014 年為 Google 公司收
               購。他們如何訓練強化式學習?掃描一下 QR code 看看吧!





                                 掃瞄 QR-Code,觀看 DeepMind 公司如何訓練強化
                                 式學習





                    我們能發現高中生物所學的大腦中神經元及突觸的運作模式,和
               AI 演算法的類神經網路(Artificial Nueral Network,ANN)是如此相

               似,這是因為類神經網路模仿大腦的神經結構、思維模式及特徵抓取
               方法。








                                                                                           49
   46   47   48   49   50   51   52   53   54   55   56