快手(Kuaishou)、統合マルチモーダル・アーキテクチャとネイティブ音声機能を備えた「Kling AI 3.0」を発表
編集者: Veronika Radoslavskaya
2026年2月5日、快手科技(Kuaishou Technology)は、次世代のAIモデル群である「Kling 3.0」ファミリーを正式に公開しました。この新シリーズには、Video 3.0、Video 3.0 Omni、Image 3.0、そしてImage 3.0 Omniという4つの主要モデルが含まれています。今回の発表は、単に短い動画クリップを生成する段階から、複雑な物語を伴うシーンを演出するための包括的なツールセットへと、AI動画生成の在り方を根本から変える重要な節目となります。
Kling 3.0の最大の特徴の一つは、大幅に強化された「ネイティブ・オーディオ」機能です。これにより、AIが生成する動画は従来の無音ループから、完全に没入感のあるオーディオ付きコンテンツへと進化を遂げました。視覚的な動きと聴覚的な情報が高度に同期することで、よりリアルな視聴体験を提供します。
- 多言語対話のサポート:このモデルは日本語、英語、中国語、韓国語、スペイン語の5言語での音声生成に対応しています。さらに、イギリス英語とアメリカ英語のアクセントの違いなど、言語特有の細かなニュアンスも巧みに処理します。
- 複雑なキャラクター対話:1つのシーン内で最大3人の異なるキャラクターによる会話を構成可能です。AIは各話者を正確に追跡し、それぞれに固有の声色を割り当てるとともに、完璧なリップシンク(口の動きの同期)を実現します。
- ダイジェティック・サウンドの生成:会話音声にとどまらず、足音や物体の衝突音、環境音といった劇中音も自動生成されます。これらの音響効果や背景音楽は、映像の視覚的なムードに正確に合致するように調整されます。
次に注目すべきは、AI動画制作における物語の連続性の課題を解決する「インテリジェント・マルチショット」機能です。これにより、クリエイターは単発のカットではなく、一連の流れを持つストーリーを構築できるようになります。
- 期間と構造:ユーザーは、最大6つの異なるカメラカットを含む、一貫性のある15秒間のシーケンスを生成できます。
- 演出のコントロール:AIは映画制作における演出技法を深く理解しており、状況を説明する引きのショットから、感情を強調するクローズアップへの切り替え、あるいは対話シーンでの切り返しショットなどを、違和感なくスムーズに繋ぎ合わせます。
- 被写体の一貫性:特にVideo 3.0 Omniモデルの優れた点は、複数のカットをまたいでもキャラクターや環境の同一性を厳密に維持できることです。カメラのアングルが変化しても、被写体の特徴が崩れたり変化したりすることなく、一貫したアイデンティティを保ち続けます。
視覚的な忠実度においても、プロフェッショナルな制作現場の要求に応えるレベルに達しています。静止画特有のニーズに応えるImage 3.0 Omniは、2Kおよび4Kの高解像度出力をサポートしており、複雑な照明設定やリアルな質感の再現において、プロンプトに対する極めて高い忠実度を誇ります。
- テキストのレンダリング:従来の生成AIが苦手としていた文字描写能力も飛躍的に向上しました。街中の標識や衣服のロゴ、デバイスの画面上の文字などが、動画や画像内で鮮明かつ正確に描写されます。
- シネマティック・ビデオ:動画生成モデルであるVideo 3.0は、ネイティブ1080pの解像度で出力され、高いフレームレートの安定性を備えています。これにより、動きの激しいアクションシーンにおいても、ブレの少ない滑らかでダイナミックな映像表現が可能となりました。
現在、Kling 3.0はKling AIのウェブインターフェースを通じて、限定的な早期アクセスユーザー向けに提供されています。また、開発者や企業が自社システムに統合できるよう、サードパーティプロバイダーであるFal AIを介したAPI経由での利用も可能となっています。
12 ビュー
ソース元
TechBullion
PRNewswire
AI NEWS
NDTV
YouTube
Focal
このトピックに関するさらに多くのニュースを読む:
エラーや不正確な情報を見つけましたか?できるだけ早くコメントを考慮します。