Page 161 - 高中生活AI大智慧-電子書_Neat
P. 161
現了 Connectionist Temporal Classification(CTC),可以讓網路自
動去學習如何對應,最常用的方法是對每一句或每一詞標上語言識別
(language identification) 標籤,再分別用各自的單語言自動語音辨
識系統 (monolingual ASR system) 進行語音辨識 ( 林韋廷、陳柏琳,
2019)。例如當聲音藉由類比到數位的轉換裝置輸入電腦內部,並以
數值方式儲存後,語音辨識程式便開始以事先儲存好的聲音樣本與輸
入的測試聲音樣本進行比對工作。比對完成後電腦即輸入一個它認為
最“像"的聲音樣本序號,就可以知道使用者剛剛唸進去的聲音代表
何意,進而命令電腦做事。
Siri 屬於 Apple 獨有的語音辨識技術
那語音辨識跟深度學習有何關係?我們已從前面的章節學到,
深度學習屬於機器學習的一種,是讓機器可以模擬人腦自我學習的技
術。具體方法是透過一些資料讓機器開始訓練,自動找出有用的函
數。透過機器學習技術訓練語音辨識系統,讓機器根據大量聲音訊號
和其對應的文字,找出「語音辨識函數」,假設我們將函數輸入大量
資料給 SIRI 等語音智能,就會產生我們對 Siri 說一句話,Siri 可以將
聲音訊號辨識成文字的效果,這就是深度學習跟語音辨識的應用(李
宏毅,2016)。
不僅如此,語音助理 Siri 正研發新功能,能辨識使用者語氣,偵
159