不只生成圖片　OpenAI僅需15秒片段即可複製人聲

盧宥竹游立爾報導 / 台北市

美國人工智慧研究實驗室OpenAI，29日公開語音AI模型「Voice Engine」，靠著文字輸入與一段15秒的音訊樣本，就能產生與原始說話者極為相似，且具有情感的逼真語音。由於今年是美國的選舉年，OpenAI表示，為了避免合成語音被濫用，現階段僅供合作夥伴在有條件的情況下使用。

只要上傳1段15秒的樣本，語音AI模型「Voice Engine」，就能產生幾乎一模一樣的逼真語音。語音樣本說：「力是推動或拉動物體，可以讓物體移動停止，或改變方向。」AI合成語音：「地球上部分最令人驚嘆的棲息地，都在雨林中。」甚至還能夠將語音樣本，翻譯成其他語言，而且生成的語音，還帶有說話者的母語口音。語音樣本說：「友誼是一種普遍的財富，無論我們身在世界何處，它都會給我們的生活帶來，快樂支持和笑聲。」

OpenAI在29日公開的Voice Engine，靠著文字輸入與15秒的音訊樣本，就能產生與原始說話者極為相似，且具有情感的逼真語音，OpenAI表示，開發這個語音模型的目的，是希望能提供閱讀輔助，打破語言隔閡，以及幫助患有言語疾病的患者恢復聲音，然而今年是美國的選舉年，而且1月才發生美國總統拜登，被AI造假錄音電話，OpenAI非常擔心合成語音，會遭到濫用。

OpenAI執行長阿特曼：「大家(員工)都變得非常敏感，這是一件很有壓力的事，這應該就是要這樣，因為我們想要對高風險事物，負起責任。」Voice Engine現階段僅供OpenAI的合作夥伴，在經過原始說話者同意之下，並主動揭露是AI生成的情況下使用，OpenAI也會對音訊添加數位浮水印，以追蹤合成語音來源。

新聞來源：華視新聞

關注我們！