OpenAI 今日正式發布了其最新的 AI 影音生成模型 Sora 2,並同步推出同名的 iOS 應用程式,標誌著其在多模態 AI 技術領域的重大進展。這款新一代模型在物理準確性、真實感和可控性方面均有顯著提升,能夠生成更精確、更具說服力的影片內容,並首次實現了與畫面同步的對話和音效生成。Sora 2 的推出,被視為是影音生成領域的「GPT-3.5時刻」,其在模擬物理世界互動方面取得了突破性進展。與前代模型相比,Sora 2 在處理複雜物理交互和維持一致的世界狀態方面表現更佳,例如,先前模型可能出現的物體變形或不合邏輯的運動,在 Sora 2 中得到了顯著改善,能更忠實地遵循物理定律,如籃球投籃不進時會反彈,而非憑空消失或傳送。此外,Sora 2 能夠生成更長的影片片段,最高可達 16 秒,並在解析度和視覺保真度上有所提升。
這款 Sora 應用程式以其創新的「Cameo」功能吸引了廣泛關注。用戶只需進行一次性的影片和音訊錄製,即可驗證身份並捕捉個人特徵,進而將自己或朋友「置入」到任何 Sora 生成的場景中,創造出高度個人化的內容。此功能為用戶提供了前所未有的創意自由度,但也引發了關於身份驗證和肖像權使用的討論。OpenAI 表示,用戶對自己的肖像擁有完全控制權,並且在他人使用其肖像時會收到通知。為了應對潛在的社會影響,OpenAI 在安全措施方面投入了大量資源。該公司正在擴大由真人審核員組成的團隊,以快速審查潛在的欺凌行為和其他有害內容。同時,針對青少年用戶,應用程式預設了每日內容瀏覽限制,並對「Cameo」功能實施更嚴格的權限。此外,還提供了家長控制選項,允許家長管理無限滾動限制、關閉個人化推薦以及管理訊息設定,旨在預防用戶過度沉迷、孤立感以及低品質內容的氾濫。
Sora 2 應用程式目前已在美國和加拿大地區開始逐步推出,並採用邀請制。用戶可透過應用程式進行註冊,等待邀請通知。初期將免費提供,並設有慷慨的使用額度,以便用戶探索其功能。OpenAI 也計劃將 Sora 2 整合到其 API 中,並為 ChatGPT Pro 用戶提供更高品質的 Sora 2 Pro 模型。此舉不僅擴展了 OpenAI 的多模態 AI 能力,也使其在與 Google 的 Veo 3 等競爭對手較量中,佔據了更有利的市場地位。然而,關於版權內容的預設使用以及潛在的濫用問題,仍是 Sora 2 在推廣過程中需要持續關注和解決的議題。