不只生成圖片 OpenAI僅需15秒片段即可複製人聲

盧宥竹 游立爾 報導  / 台北市

美國人工智慧研究實驗室OpenAI,29日公開語音AI模型「Voice Engine」,靠著文字輸入與一段15秒的音訊樣本,就能產生與原始說話者極為相似,且具有情感的逼真語音。由於今年是美國的選舉年,OpenAI表示,為了避免合成語音被濫用,現階段僅供合作夥伴在有條件的情況下使用。

只要上傳1段15秒的樣本,語音AI模型「Voice Engine」,就能產生幾乎一模一樣的逼真語音。語音樣本說:「力是推動或拉動物體,可以讓物體移動停止,或改變方向。」AI合成語音:「地球上部分最令人驚嘆的棲息地,都在雨林中。」甚至還能夠將語音樣本,翻譯成其他語言,而且生成的語音,還帶有說話者的母語口音。語音樣本說:「友誼是一種普遍的財富,無論我們身在世界何處,它都會給我們的生活帶來,快樂支持和笑聲。」

OpenAI在29日公開的Voice Engine,靠著文字輸入與15秒的音訊樣本,就能產生與原始說話者極為相似,且具有情感的逼真語音,OpenAI表示,開發這個語音模型的目的,是希望能提供閱讀輔助,打破語言隔閡,以及幫助患有言語疾病的患者恢復聲音,然而今年是美國的選舉年,而且1月才發生美國總統拜登,被AI造假錄音電話,OpenAI非常擔心合成語音,會遭到濫用。

OpenAI執行長阿特曼:「大家(員工)都變得非常敏感,這是一件很有壓力的事,這應該就是要這樣,因為我們想要對高風險事物,負起責任。」Voice Engine現階段僅供OpenAI的合作夥伴,在經過原始說話者同意之下,並主動揭露是AI生成的情況下使用,OpenAI也會對音訊添加數位浮水印,以追蹤合成語音來源。

新聞來源:華視新聞



新聞關鍵字

加入Line好友