快手发布Kling Video O1:全球首款集生成与文本编辑于一体的AI视频模型

编辑者: Veronika Radoslavskaya

人工智能视频领域正经历一场重大的变革。快手(Kuaishou)重磅推出了功能强大的全新基础模型——Kling Video O1(全称为Omni One)。该模型被定位为全球首个统一的多模态引擎,它集成了视频生成与高级编辑能力。Kling Video O1的问世,有效打破了以往创意工作流程的碎片化局面,创作者无需再频繁切换不同的工具来完成创作、编辑和精修等一系列步骤。

O1技术上的核心突破在于其能够在一个单一、流畅的工作流程中接收复杂的混合输入。这些输入包括文本提示、多达七张的参考图像,以及原始视频片段。这种统一的多模态引擎架构,使用户能够直接生成高保真度的1080p视频场景,并立即利用自然语言指令进行后期制作。创作者现在可以直接输入诸如“移除背景中的路人”、“将白天场景改为黄昏”或“更换主角的服装”等指令,模型便能精准理解视觉上下文并执行这些修改。

Kling Video O1直面了行业长期存在的挑战,尤其是在保持视觉连贯性方面。该模型经过精心设计,旨在跨越冗长的序列和复杂的运镜变化,依然能维持卓越的角色一致性和风格统一性。它的运作方式如同人类导演一般,能够有效避免画面出现“漂移”或闪烁的伪影。此外,该模型还提供了精细化的控制功能,例如“起始帧与结束帧控制”,这使得编辑人员能够精确界定镜头开始和结束的位置,从而实现流畅的转场效果,并对静态图像进行精确的动画处理。

虽然基础片段的生成时长通常在5到10秒之间,但O1的架构支持生成更长、更具叙事连贯性的片段,有报道指出其可扩展长度最高可达两分钟。这为长视频叙事提供了坚实的技术支撑,极大地提升了内容制作的效率。

在技术实力方面,Kling Video O1集成了思维链(Chain-of-Thought, CoT)推理系统,这显著增强了其对提示词的分析能力和对物理世界的理解。在复杂的转换任务基准测试中,该模型展现出超越竞争对手如谷歌的Veo 3.1和Runway的Aleph的显著性能优势。通过将文本到视频、场景扩展和编辑等七项关键创意能力融为一体,Kling Video O1为专业制作流程树立了新的效率标杆,确保从概念构思到最终成片的整个过程中,都能保持高品质和高度一致性。

13 查看

来源

  • מגזין גאדג'טים וטכנולוגיה - Gadgety.co.il | גאדג'טי

  • Kling's Video O1 launches as the first all-in-one video model for generation and editing

  • Kling AI Launches O1, the Industry's First Unified Multimodal Video Model, Revolutionizing Content Creation and Editing - Barchart.com

  • Kling AI releases unified video model - Kr Asia

  • 'Nano Banana' of AI Video: Chinese platform Kling AI Launches O1 AI Video Editing Model

  • Creativity AI #52: Runway claims the top spot, Kling goes multimodal, and Midjourney rethinks its UI - Medium

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。

快手发布Kling Video O1:全球首款集生成与文本编辑于一体的AI视频模型 | Gaya One