• 台灣網移動版

    台灣網移動版

七嘴八舌分不清誰講話?Google靠AI分辨誰開口

2018-04-16 15:57:00
來源:台灣網
字號

  

  Google訓練AI依據畫面和聲音判斷説話的人。(圖片來源:臺灣“東森新聞雲”)

  台灣網4月16日訊  據臺灣“東森新聞雲”報道,人類可以在嘈雜的人群中,依據聲音傳來的方向辨別説話的人,但電腦可就沒有這麼厲害了,不過 Google 今天公開一項技術,讓AI在混雜的影片中,分辨開口説話的對象,並且將每一個人的聲音拆開成為獨立音檔,這項技術除了有望改善YouTube的字幕功能外,也能提升多人視頻對話的品質。

  據報道,Google藉由一段表演秀視頻展示研究成果,AI會將聲音元素與視覺畫面結合起來進行判斷,簡單來説,當視頻中左邊的人在進行對話時,他的嘴巴應該要産生對應的開闔動作,AI藉由捕捉肢體細節來判斷現在説話的人物是誰,接著再通過隔離單一聲音訊號並加強、其他聲音降低,完成獨立單一音源的工作。

  除了展示隔絕聲音的技術外,Google實際示範AI與YouTube目前的自動字幕的互動狀況,這項技術未來有機會幫YouTube添加雙軌道的字幕顯示。

  Google特別提到,他們認為這項功能在視頻會議上能有所貢獻,期望技術能廣泛運用在Google各項産品之中。若依據Google的論述,Hangouts、Duo 是有可能使用這項技術的産品名單,在七嘴八舌的視頻會議中,藉由AI強化説話者的音量並隔絕雜音,會帶來更好的服務體驗。(台灣網 王怡然)

[責任編輯:王怡然]