快手发布可灵 AI 3.0:统一多模态架构与原生音频技术引领叙事级视频创作

编辑者: Veronika Radoslavskaya

2026年2月5日,快手科技正式推出了备受瞩目的可灵(Kling)3.0系列模型家族。该系列涵盖了 Video 3.0、Video 3.0 Omni、Image 3.0 以及 Image 3.0 Omni 四款核心模型。此次发布标志着 AI 视频生成领域的一次根本性跨越,从过去生成零散的短片段,进化为能够导演复杂且具有叙事深度的完整场景。

在音频表现上,可灵 3.0 显著增强了原生音频(Native Audio)能力,将 AI 视频从以往的“默片”模式彻底转变为全沉浸式的视听内容。这一进步使得生成的视频不再仅仅是视觉的堆砌,而是具备了与画面高度契合的声音灵魂。

  • 多语言对话支持:该模型目前支持包括中文、英语、日语、韩语和西班牙语在内的多语言语音生成。值得注意的是,它还能细腻地处理不同地区的口音差异,例如能够精准区分并呈现英式英语与美式英语的独特韵味。
  • 复杂交互处理:为了应对多角色交互场景,可灵 3.0 能够在单一画面中同时协调多达三个不同角色的对话。系统会自动追踪每一位发言者,并为他们分配独特的音色,同时确保口型同步(lip-synchronization)达到极高的精确度。
  • 环境音效同步:除了人声,该模型还能生成与视觉动作完美对齐的环境音效,如脚步声、撞击声以及背景氛围音,使音频与画面的情感基调保持高度一致。

“智能多镜头”(Intelligent Multi-Shot)功能的引入,解决了 AI 视频创作中长期存在的叙事连贯性难题。这一功能让创作者能够像真正的导演一样,通过 AI 实现复杂的镜头语言编排。

  • 时长与结构:创作者现在可以生成一段长达 15 秒的连贯序列,其中包含多达六个不同的镜头切换。这种能力赋予了 AI 深刻的电影语言理解力。
  • 导演级控制:系统允许在不同镜头类型之间进行无缝衔接,例如从宏大的全景交代镜头平滑过渡到富有冲击力的特写镜头,或是在角色对话间进行经典的对切镜头处理。
  • 主体一致性:Video 3.0 Omni 模型的一大核心优势在于其维持角色和环境身份特征的稳定性。在多镜头切换过程中,画面主体不会出现变形或特征丢失,确保了视觉叙事的严密性。

在视觉精细度方面,可灵 3.0 已达到专业级标准,特别是在静态图像和视频清晰度上实现了双重突破。

  • Image 3.0 Omni:专为高品质静态图像设计的模型,支持 2K 乃至 4K 的超清输出。它在处理复杂光影布局和写实纹理方面表现惊人,对提示词的遵循能力有了质的飞跃。
  • 文字渲染能力:该系列模型显著提升了在图像和视频中渲染清晰文字的能力。无论是街头招牌、服装上的标志还是电子屏幕,文字内容均清晰可见,攻克了生成式模型的一大技术顽疾。
  • 电影级视频输出:Video 3.0 能够输出原生的 1080p 视频,并具备极高的帧率稳定性,确保了动态动作场面在视觉上的流畅与自然。

目前,可灵 3.0 已通过其官方 Web 界面开启定向早期访问。对于开发者和企业级用户,这些模型也已通过第三方服务商 Fal AI 的 API 接口正式对外开放,为全球创意工作者提供强大的技术支持。

12 查看

来源

  • TechBullion

  • PRNewswire

  • AI NEWS

  • NDTV

  • YouTube

  • Focal

你发现了错误或不准确的地方吗?我们会尽快考虑您的意见。