Page 51 - 高中生活AI大智慧-電子書_Neat
P. 51
目標更近或更遠, 如果更接近目標則給予「 正向回饋(positive
feedback)」, 如 果 更 遠 離 目 標 則 給 予「 負 向 回 饋(negative
feedback)」,這樣最後的決策就會愈來愈接近正確的答案。
強化式學習以獎勵方式來訓練電腦演算法,是「非監督式學習」
的一種。如同電玩經常對有提高功力的玩家提示,完成一個任務,提
升到某個等級就有獎勵,這些提示協助玩家學習如何為了闖下一關而
增強自己的功力。強化式學習如同電玩的設計概念,電腦演算法會試
著預測完成特定目標的最佳方法,對完成目標採取行動時會獲得獎
勵,再預測下一個最佳步驟逐步獲得最大的終極獎勵。因此,下圍棋
或西洋棋時,AI 會依照對手的每一步棋來修正下一步要如何走。市場
上的自動駕駛車,也是依照路況的變化來修正下一步行動。
DeepMind 公司建立於 2010 年,於 2014 年為 Google 公司收
購。他們如何訓練強化式學習?掃描一下 QR code 看看吧!
掃瞄 QR-Code,觀看 DeepMind 公司如何訓練強化
式學習
我們能發現高中生物所學的大腦中神經元及突觸的運作模式,和
AI 演算法的類神經網路(Artificial Nueral Network,ANN)是如此相
似,這是因為類神經網路模仿大腦的神經結構、思維模式及特徵抓取
方法。
49