Kuaishouが世界初の一体型モデル「Kling Video O1」を発表:生成とテキストベース編集を統合
編集者: Veronika Radoslavskaya
AIによる動画制作の領域は、Kuaishouが発表した強力な基盤モデル「Kling Video O1」(Omni One)の登場により、大きな転換期を迎えています。このモデルは、動画生成と高度な編集機能の両方を統合した、世界初の統合マルチモーダルエンジンとして位置づけられています。O1の登場により、クリエイターはこれまで必要とされていた、制作、編集、洗練のための別々のツール間を行き来する作業から解放され、クリエイティブなワークフローの断片化が解消されることになります。
O1の核となる技術的ブレークスルーは、テキストプロンプト、最大7枚の参照画像、そして既存の動画クリップといった多様な入力を、単一かつシームレスなワークフローで受け入れられる点にあります。この統合されたマルチモーダルエンジンにより、クリエイターは高精細な1080pのシーンを生成できるだけでなく、自然言語による指示だけで即座にポストプロダクション編集を適用できます。例えば、「背景の通行人を消去してほしい」「昼間の設定を夕暮れに変更したい」「主役のキャラクターの衣装を取り替えたい」といった指示をタイプするだけで、モデルが映像の文脈を正確に理解し、意図した変更を的確に実行するのです。
Kling Video O1は、特に映像の一貫性という業界が長年抱えてきた課題に対処するために設計されています。このモデルは、長尺のシーケンスや複雑なカメラワークにおいても、卓越したキャラクターの一貫性とスタイルを維持するように構築されており、あたかも熟練した人間のディレクターのように機能し、映像の「ドリフト」やちらつきといったアーティファクトの発生を防ぎます。
さらに、O1は「開始フレームと終了フレームの制御」といった機能を提供し、編集者に対してショットがどこで始まり、どこで終わるかを正確に定義する粒度の高い制御を可能にします。これにより、スムーズなトランジションや静止画からの精密なアニメーション化が実現します。基本となるクリップの長さは通常5秒から10秒程度ですが、O1のアーキテクチャは、2分程度の長尺で一貫性のある物語性のあるクリップを生成する能力もサポートしていると報告されています。
技術的な強みとしては、プロンプトの分析能力と物理法則の理解を深めるための「思考の連鎖(Chain-of-Thought: CoT)推論システム」が挙げられます。また、ベンチマークテストでは、複雑な変換タスクにおいてGoogle Veo 3.1やRunway Alephといった競合他社を大きく上回る顕著な性能差を示しています。
テキストから動画への変換、シーンの拡張、そして高度な編集という、これら7つの主要なクリエイティブ機能を統合することで、Kling Video O1はコンセプト段階から最終カットに至るまで、高品質と一貫性を保証し、プロフェッショナルな効率性の新たな基準を打ち立てました。
13 ビュー
ソース元
מגזין גאדג'טים וטכנולוגיה - Gadgety.co.il | גאדג'טי
Kling's Video O1 launches as the first all-in-one video model for generation and editing
Kling AI Launches O1, the Industry's First Unified Multimodal Video Model, Revolutionizing Content Creation and Editing - Barchart.com
Kling AI releases unified video model - Kr Asia
'Nano Banana' of AI Video: Chinese platform Kling AI Launches O1 AI Video Editing Model
Creativity AI #52: Runway claims the top spot, Kling goes multimodal, and Midjourney rethinks its UI - Medium
このトピックに関するさらに多くのニュースを読む:
エラーや不正確な情報を見つけましたか?
できるだけ早くコメントを考慮します。
