Previous Next

語音識別已融入我們的日常生活中,可能大家也習以為常,隨手拿起平板或手機,按個按鈕就會發出語音指令。Siri、Bixby、小愛同學等手機的職能語音助手,已發展到各有個性,當然這下子涉及人工智能。透過語音輸入指令,然後操作打電話、發短訊、設置提醒,甚至搜尋手機內的資訊或檔案等,令我們的使用變得更為方便。細心回想,不難發現日常生活中運用了相關原理的各種工具遍布方方面面,例如語音翻譯軟體。當中語音識別功能背後的運作原理,你又知道嗎?


語音識別 操作原理

手機或其他智能裝置的語音識別功能,都是要經過語音轉化為文本(Speech To Text)的過程,才能讓機器接收到能夠理解的執行指令,作出相應的操作或反應。語音識別具體操作原理,簡單來說可以分為5個步驟:

1接收語音訊號
使用麥克風或其他錄音設備收集人的語音訊號。

2預處理語音訊號
對收集到的語音訊號進行數碼化、去噪等處理操作,使語音訊號能夠更容易被計算機解析。

3特徵提取
將處理後的語音訊號轉換為特徵向量,用來描述語音訊號的聲音頻率、強度、節奏等資訊。

4進行語音辨識
使用已訓練好的模型將特徵向量,對照轉換為最符合預設的文本或指令。

5輸出結果 執行指令
將語音訊號轉化為文本或命令後,執行機器上相應的應用程式。

總括而言,語音辨識的操作原理是通過將語音訊號轉換為特徵向量,然後使用已訓練好的模型將其轉換為文本或者命令。通過這個過程,讓我們實現語音和文本翻譯及指令控制等功能,帶來人和機器的互動。


做個小創客 製作個人化語音翻譯工具

由以上學習、探究和思考,我們理解到要創作語音識別工具,關鍵是須運用有輸入語音的麥克風器材,同時要借助已訓練好的語音轉換模型。當有這兩方面的配合,我們再運用程式創作一個個人化的語音翻譯工具便不太困難了。

手機內置麥克風的設備,同時可以上網連結已訓練好的語音轉換模型,是理想的產出創作裝置。而安卓手機為一個開放研發的平台,學生可以更容易運用App Inventor創造小工具,然後將應用程式安裝到安卓手機上,測試實際效能。

大家可以按以下步驟,或掃描二維碼觀看影片,嘗試運用App Inventor創作個人化語音翻譯工具:

1. 從網頁瀏覽器進入App Inventor網站︰https://appinventor.mit.edu/

2. 按Create Apps登入。

3. 在編輯器中選擇New Project並命名,點擊OK進入應用程式編輯畫面。

4. 在工具欄點選User Interface選項,選擇Label,加入在模擬器內的適當位置。

5. 再點選User Interface選項,選擇Button,加入在模擬器內的適當位置(Button用作連結和啟動網絡上的語音轉換模型。)

6. 最後點選Media選項,加入SpeechRecognizer組件。(版本整體設計如下,同學熟習後還可設計得更精美。)

 

7. 設計好版面後,便可到Blocks內製作對應的執行程式。

i) 未有語音輸入前,Label顯示為空白。
i) 未有語音輸入前,Label顯示為空白。

 

ii) 按下Button連結網絡上的語音轉換模型。
ii) 按下Button連結網絡上的語音轉換模型。

 

iii) 輸入語音之後,運用網絡上的語音轉換模型,將語音翻譯為最適切的文本。
iii) 輸入語音之後,運用網絡上的語音轉換模型,將語音翻譯為最適切的文本。

 

8. 版面和程式亦製作完成,我們可以檢查一遍,如有錯誤就除錯。最後按Build保存並下載你創作的應用程式.apk檔案。

完成以上步驟,就可以在安卓手機上安裝.apk檔案,使用自己創作的個人化語音翻譯工具了。

有興趣的同學,來一起試試吧!希望你們亦可在探究和創作中,找到樂趣和滿足感!

文:中華基督教會蒙黃花沃紀念小學校長、教育評議會副主席鄭家寶、中華基督教會蒙黃花沃紀念小學電腦科主任郭權興

本欄逢周四刊登,由教育評議會邀請資深中小學老師、校長及大學講師撰稿,旨在為學生提供多元化的STEAM學習材料,引發學生探求知識的興趣,將學習融入生活,培養學生的世界觀、敏銳的觸覺、積極學習的態度。


延伸閱讀:

Hello Motor!探索STEAM道路|星島教室

磁浮陀螺 — 樂與學|星島教室

加密,究竟有幾秘密?|星島教室

〈天問〉|星島教室


《星島頭條》APP經已推出最新版本,請立即更新,瀏覽更精彩內容:https://bit.ly/3yLrgYZ