繼文生視頻大模型Sora后,近日,OpenAI終于將按捺許久的語音引擎模型—Voice Engine公之于眾。
利用文本輸入和單個15秒音頻樣本,Voice Engine就能生成與原說話者非常相似且情感豐富的自然語音。不過,和文本生成視頻模型Sora一樣,目前OpenAI只針對少部分內測用戶開放Voice Engine。
OpenAI在其官網披露,2022年底,Voice Engine就被首次開發,并已經用它來支持文本轉語音API以及ChatGPT語音和朗讀中可用的預設語音。但考慮到合成語音被濫用的潛在風險,OpenAI選擇了謹慎有序地推進和發布Voice Engine。
近兩年,全球生成式AI應用規模呈現爆發式增長。據IDC預測,全球AI軟件市場規模有望從2022年的640億美元增長至2027年的2790億美元,復合增長率為31.4%。
華泰證券分析師認為,隨著基礎模型能力優化,多模態應用有望在內容創作、AI教育、虛擬陪伴等場景加速落地。
Voice Engine的問世,解鎖了語音模型的更多可能性,例如輔助閱讀、視頻轉譯等,也將在發音障礙人群的語言表達上提供有效幫助。
當AI瞄準聲音克隆技術
去年,霉霉說地道中文的視頻火上微博熱搜,而這背后的AI工具來自Voice Engine的采用者之一—AIGC初創公司HeyGen,此話題的閱讀量超600萬。
通過Voice Engine進行實時轉換翻譯,說話者將保留原始口音,原語言不僅能轉換成中文、英文、日文等各類語言,也能讓面部嘴型完美匹配。
除此之外,特朗普隨口飆一段中文、郭德綱用英語說相聲、蔡明阿姨講段子的視頻也在各大社交平臺上廣為流傳。
Voice Engine的官宣也有跡可循。2024年3月19日,OpenAI已經為“Voice Engine”申請了商標,商標的覆蓋范圍主要是圍繞語音識別、語音合成和語音生成等方面。
谷歌前員工Jonathan Chavez也曾在前段時間透露,OpenAI將在今年推出一款全球最好的個人助理產品,就像鋼鐵俠中的Jarvis。
果不其然,Voice Engine如期而至,團隊還公示了多場景下的內測結果與相關音頻。
根據OpenAI的介紹,Voice Engine能夠通過自然、富有感情的聲音為非讀者和兒童提供閱讀幫助;可以翻譯視頻和播客等內容,以便創作者和企業可以用自己的聲音流利地接觸世界各地的更多人;支持非語言人群和幫助患有突發性或退化性言語病癥的患者恢復聲音。
OpenAI語音引擎產品團隊成員杰夫·哈里斯 (Jeff Harris)表示,該模型是根據“許可數據和公開數據的組合”進行訓練的。
對于Voice Engine的進展,網友直呼:“人工智能的發展速度令人興奮,勢不可擋?!?/p>
從業人士認為,Voice Engine將對播客、配音藝術家、口語表演者、有聲書和廣告解說員、游戲玩家、流媒體主播、客戶服務代理、銷售人員等眾多職業帶來現實影響,這其中也包括就業壓力。
大眾也期待,當OpenAI的Sora與Voice Engine這兩項前沿科技相碰撞,又會擦出什么樣的火花,真正意義上的有聲AI視頻乃至電影短片,是不是也就不遠了。
勒緊“深度偽造”的韁繩
對于Voice Engine技術的使用,除了驚喜與贊嘆聲,也有人提出了質疑,如果這樣的技術用于電信詐騙,后果會很可怕。
有在校大學生告訴21世紀經濟報道記者,家長曾接到AI偽造學生聲音的詐騙電話。
其實,OpenAI去年所發布“可以說話”的ChatGPT版本,長期以來一直為各種企業提供根據配音演員的錄音所創建的聲音,并沒有發布從短視頻中復制聲音的技術。 OpenAI產品經理杰夫·哈里斯(Jeff Harris)表示,以這種方式復制任何聲音的能力是有風險的。
2024年2月,美國曾發生利用AI生成語音影響選民投票事件。據報道,在大選之際,新罕布什爾州的部分選民接到一個神秘來電,電話中酷似美國總統拜登的聲音號召他們不要在該州初選中投票。后經證實,該來電是機器人語音電話,并非拜登本人錄制。此事件在當時引起了不小的轟動,加劇了人們對競選“深度偽造”的擔憂。
為加強語音引擎的安全構建,OpenAI在官方公告中稱,公司正在與來自政府、媒體、娛樂、教育、民間社會等領域的美國和國際合作伙伴合作,以確保在建設過程中吸收他們的反饋。 不過,OpenAI與這些合作伙伴針對語音引擎的業務進展,需要原始發言者的明確和知情同意,合作伙伴還必須清楚地向觀眾強調,他們聽到的聲音是由AI生成的。
OpenAI將為AI生成的語音添加水印,以追蹤并主動監控其使用方式,以確保其透明度和安全度。
OpenAI官方表示:“我們目前不會廣泛發布這項技術,僅小部分開放內測,希望語音引擎的這次內測既能強調其潛力,又能增強潛在問題的抵御能力,以應對越來越逼真的生成模型帶來的挑戰?!?/p>
此外,他們還將采取一系列安全措施,包括逐步淘汰基于語音的身份驗證作為訪問銀行賬戶和其他敏感信息的安全措施;探索保護人工智能中個人聲音使用的政策;教育公眾了解人工智能技術的能力和局限性,包括欺騙性人工智能內容的可能性;加速開發和采用追蹤視聽內容來源的技術等。
責任編輯:王超
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。