快手發佈可靈 Kling AI 3.0:統一多模態架構與原生音訊技術引領敘事新紀元

编辑者: Veronika Radoslavskaya

2026 年 2 月 5 日,快手科技(Kuaishou Technology)正式發表了備受矚目的「可靈 Kling 3.0」模型家族。此次更新涵蓋了 Video 3.0、Video 3.0 Omni、Image 3.0 以及 Image 3.0 Omni 四大核心模型。這項技術的問世,象徵著 AI 影片生成已從單純的片段產出,進化為具備高度敘事能力的專業導演工具組,能精準駕馭複雜且具故事性的場景。

在原生音訊(Native Audio)能力方面,Kling 3.0 實現了質的飛躍,將原本無聲的 AI 循環畫面轉化為全方位沉浸式的內容:

  • 多國語言對話:該模型目前支援包括中文、英文、日文、韓文及西班牙文在內的多國語言對話生成。值得注意的是,它還能細膩處理不同地區的口音差異,例如精確區分英式英語與美式英語的發音特徵。
  • 複雜角色互動:針對多人物場景,Kling 3.0 能在單一場景中同時編排多達三位不同角色的對話。系統會自動追蹤每位發言者,並為其分配獨特的音色,同時確保角色的口型與語音內容達到極高精度的同步。
  • 環境音效與配樂:除了人聲對話,該模型還具備生成同步音效(如腳步聲、撞擊聲、環境氛圍音)的能力,並能根據視覺氛圍自動生成契合的背景音樂。

為了填補 AI 影片在敘事連貫性上的缺口,Kling 3.0 引入了「智慧多鏡頭」(Intelligent Multi-Shot)功能。這項創新讓創作者能夠生成長達 15 秒的連貫序列,並在其中包含多達六次不同的鏡頭切換,徹底打破了以往 AI 影片只能單一鏡頭到底的限制。

  • 導演級運鏡控制:該模型深度理解電影語言,支援多種專業運鏡技巧。創作者可以輕鬆實現從全景交代鏡頭到特寫鏡頭的無縫過渡,或是模擬對話中的正反打鏡頭(Shot-reverse-shot),賦予 AI 生成內容更強的電影質感。
  • 主體一致性保障:在多鏡頭切換過程中,Video 3.0 Omni 模型展現了卓越實力,能確保角色與環境特徵在不同角度切換時保持穩定。即使鏡頭大幅度擺動,畫面中的人物也不會出現變形或特徵遺失,維持了敘事的完整性。

在視覺表現力方面,Image 3.0 Omni 專為高階靜態影像設計,支援 2K 乃至 4K 的超高畫質輸出。該模型對提示詞(Prompt)的理解極為精準,尤其在處理複雜的光影佈局與寫實紋理時,展現出媲美專業攝影的細膩質感。

針對生成式模型長久以來的痛點——文字渲染,Kling 3.0 取得了顯著突破。現在,模型能清晰呈現影像與影片中的文字內容,包括街道招牌、衣服上的標誌以及電子裝置螢幕上的訊息,這對於品牌行銷與場景真實度至關重要。

在動態影像部分,Video 3.0 提供了原生 1080p 的解析度,並具備極高的幀率穩定性。這確保了在快速變動的動作序列中,畫面依然能保持流暢且不失真,滿足了專業影視製作對動態品質的嚴苛要求。

目前,Kling 3.0 已在可靈 Kling AI 的網頁介面上開放專屬的早期訪問權限。對於有開發需求或企業整合意向的用戶,則可以透過第三方服務供應商 Fal AI 提供的 API 介面,接入並運用這些強大的模型功能。

12 浏览量

來源

  • TechBullion

  • PRNewswire

  • AI NEWS

  • NDTV

  • YouTube

  • Focal

发现错误或不准确的地方吗?我们会尽快处理您的评论。