Page 161 - 高中生活AI大智慧-電子書_Neat
P. 161

現了 Connectionist Temporal Classification(CTC),可以讓網路自
               動去學習如何對應,最常用的方法是對每一句或每一詞標上語言識別
               (language identification) 標籤,再分別用各自的單語言自動語音辨

               識系統 (monolingual ASR system) 進行語音辨識 ( 林韋廷、陳柏琳,
               2019)。例如當聲音藉由類比到數位的轉換裝置輸入電腦內部,並以
               數值方式儲存後,語音辨識程式便開始以事先儲存好的聲音樣本與輸

               入的測試聲音樣本進行比對工作。比對完成後電腦即輸入一個它認為
               最“像"的聲音樣本序號,就可以知道使用者剛剛唸進去的聲音代表
               何意,進而命令電腦做事。

               Siri 屬於 Apple 獨有的語音辨識技術


                    那語音辨識跟深度學習有何關係?我們已從前面的章節學到,
               深度學習屬於機器學習的一種,是讓機器可以模擬人腦自我學習的技
               術。具體方法是透過一些資料讓機器開始訓練,自動找出有用的函
               數。透過機器學習技術訓練語音辨識系統,讓機器根據大量聲音訊號

               和其對應的文字,找出「語音辨識函數」,假設我們將函數輸入大量
               資料給 SIRI 等語音智能,就會產生我們對 Siri 說一句話,Siri 可以將
               聲音訊號辨識成文字的效果,這就是深度學習跟語音辨識的應用(李
               宏毅,2016)。


                    不僅如此,語音助理 Siri 正研發新功能,能辨識使用者語氣,偵















                                                                                           159
   156   157   158   159   160   161   162   163   164   165   166