北京時間5月14日凌晨,OpenAI再放大招,新推出的GPT-4o改寫了大模型交互定義,可以實時對音頻、視覺和文本進行推理,語音響應時間短至232毫秒,與人類反應速度一致,在無延遲語音對話中,GPT-4o的節奏、語氣甚至接梗,與真人無異,視頻實時交互也不在話下。
GPT-4o的驚艷面世,不負此前Sam Altman鋪墊過的“魔法般體驗”,而人類擁有全能AI助手的夢想,也被OpenAI大幅推進。有業內人士驚呼:科幻《她》真的到來了。
先進智能體:多模態交互與情感識別
GPT-4o的“o”代表“omni”,象征著全能。該模型多模態交互能力突出,能夠接受文本、音頻和圖像的“混搭”輸入,快速響應完成推理,生成文本、音頻和圖像的組合輸出。
音頻輸入層面,GPT-4o擊穿了此前Siri等智能語音助手的延遲弊端,取得突破性進展。其響應速度之快,達到了人類級別,至短232毫秒,平均320毫秒。
此外,新模型展現出對人類交流習慣的高度理解力和適應性。它能夠接受人類交談中的打斷習慣,及時停頓并給出無縫回復,并且保持對上下文的記憶。這種自然的交互體驗,讓人幾乎感覺不到與機器的界限。
視頻輸入方面,GPT-4o可以及時響應高管開啟攝像頭的視頻需求指令,實時解決一元方程的數學計算,整個過程同樣絲滑迅速。
GPT4-o還展示出對圖片信息的快速解讀能力,用AI讀復雜圖片正在變為現實。發布會現場,桌面版ChatGPT對一張包含氣溫數據的圖表進行了詳細的分析。
市面上已有一部分情感型人工智能機器人,比普通人工智能助手更能準確識別人類情緒。然而,上述功能多停留在文本中,GPT-4o的情緒檢測功能則擴展至視頻領域。
發布會現場,研究人員將手機攝像頭對準自己的臉,向GPT-4o發起了頗具挑戰性的問題:“我看起來怎么樣?”。GPT-4o初次回答將提問者的臉界定為“木質表面”。隨后,GPT-4o在引導性提問下修正結果,準確分析出提問者的情緒狀態是愉悅的、笑容滿面的。
從底層技術分析,GPT-4o的先進之處在于,它革新了傳統的多模型串聯處理方式,能夠通過單一的神經網絡統一處理所有的輸入和輸出,無論是文本、視覺圖像還是音頻信息,都能得到精準高效的解析和回應。
Open AI顛覆了對傳統AI助手的想象,與人類形成多模態的深度配合和自然交互。Open AI官方稱,OpenAI將在未來1個月左右向Plus用戶推出基于GPT-4o改進的語音體驗,新模型在提供個性化服務和提升用戶體驗方面的潛力將不可限量。
而過去的AI助手迅速變得“傳統”,其工作極有可能被GPT-4o替代。
新技術普惠:免費開放與端側調用
發布會為免費用戶帶來了好消息。
OpenAI 的首席技術官穆里?穆拉蒂 (Muri Murati) 在發布會上表示,以后 OpenAI 做產品就是要免費優先,為的就是讓更多的人能使用。
不同于此前OpenAI在推出模型新版本都會對特定付費用戶開放,本次GPT-4o的新功能將向所有用戶敞開大門,可以免費運用模型進行更為復雜的數據分析,對圖像進行深入的解析,訪問GPT Store應用商店。
另外,此前僅對ChatGPT Plus會員開放的視覺、聯網、記憶、執行代碼等高級功能也將開放免費使用。一系列普惠舉措,無疑將吸引大批用戶涌入OpenAI平臺,嘗試豐富的AI體驗。
技術研發者也將享受更多利好。發布會表示,GPT-4o模型的應用程序接口(API)將與模型同步向公眾開放。API不僅升級了性能,還為開發者把價格打了下來。OpenAI給出了一系列令人驚喜的數據:推理速度較之前提升了2倍之多,消息限制則擴增為原來的五倍,使用成本則大幅下降了50%。
除了新模型的普惠舉措,OpenAI發布了ChatGPT的桌面版本。穆里?穆拉蒂強調了桌面端以用戶為中心的設計理念,模型變得復雜高級,但OpenAI力求消除用戶與AI模型之間的隔閡,使用戶能夠更加自如地利用這些先進的技術工具。
OpenAI的這一決策,似乎在破除此前輿論場對OpenAI的閉源偏見。開放接口、免費試用、桌面落地體現了這家技術領頭羊對于AI普及化的承諾,有望進一步豐富AI應用的技術生態。
責任編輯:王超
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。