七嘴八舌分不清誰講話？Google靠AI分辨誰開口

2018-04-16 15:57:00

來源：中國臺灣網

字號

　　Google訓練AI依據畫面和聲音判斷說話的人。（圖片來源：臺灣“東森新聞雲”）

　　中國臺灣網4月16日訊據臺灣“東森新聞雲”報道，人類可以在嘈雜的人群中，依據聲音傳來的方向辨別說話的人，但計算機可就沒有這麼厲害了，不過 Google 今天公開一項技術，讓AI在混雜的影片中，分辨開口說話的對象，並且將每一個人的聲音拆開成為獨立音檔，這項技術除了有望改善YouTube的字幕功能外，也能提升多人視頻對話的質量。

　　據報道，Google藉由一段表演秀視頻展示研究成果，AI會將聲音元素與視覺畫面結合起來進行判斷，簡單來說，當視頻中左邊的人在進行對話時，他的嘴巴應該要產生對應的開闔動作，AI藉由捕捉肢體細節來判斷現在說話的人物是誰，接著再通過隔離單一聲音訊號並加強、其他聲音降低，完成獨立單一音源的工作。

　　除了展示隔絕聲音的技術外，Google實際示范AI與YouTube目前的自動字幕的互動狀況，這項技術未來有機會幫YouTube添加雙軌道的字幕顯示。

　　Google特別提到，他們認為這項功能在視頻會議上能有所貢獻，期望技術能廣泛運用在Google各項產品之中。若依據Google的論述，Hangouts、Duo 是有可能使用這項技術的產品名單，在七嘴八舌的視頻會議中，藉由AI強化說話者的音量並隔絕雜音，會帶來更好的服務體驗。（中國臺灣網王怡然）

[責任編輯：王怡然]

地方站點

中國臺灣網移動版

七嘴八舌分不清誰講話？Google靠AI分辨誰開口

相關新聞