Google DeepMindが「Project Genie」の限定早期アクセスを開始:次世代のインタラクティブ世界モデルを体験

編集者: Veronika Radoslavskaya

2026年1月29日、Google DeepMindは、最先端の実験的リサーチプロトタイプである「Project Genie」の限定的な早期アクセスを開始したことを公式に発表しました。この革新的なシステムは、現在、米国内のGemini Ultraサブスクライバーのみが利用可能となっており、ユーザーが入力したテキストプロンプトや参照画像に基づいて、動的な仮想環境を即座に生成し、その中を探索できる画期的な体験を提供します。

Project Genieの背後には、3つの異なるAIシステムを高度に融合させたハイブリッドAIアーキテクチャが存在します。この多層的なアプローチにより、従来のシミュレーション技術では困難だった柔軟かつ一貫性のある環境生成が可能となりました。システムの核となる構成要素は以下の通りです。

  • Genie 3(ワールドモデル): DeepMindが誇る基盤モデルであり、ユーザーの操作に応じてビデオシーケンスの次のフレームを予測します。これにより、簡略化された物理法則が適用された、一貫性のあるインタラクティブな環境をシミュレートします。
  • Nano Banana Pro: Geminiをベースにした画像生成モデルのバリアントです。ユーザーの初期プロンプトを解析し、シミュレーションを開始するために不可欠な高品質の視覚的ベースラインを構築する役割を担います。
  • Gemini(オーケストレーター): システム全体の推論エンジンとして機能します。カメラの視点移動やキャラクターの動作を緻密に管理し、ユーザーのコマンドに対してリアルタイムで応答性の高いナビゲーションを実現します。

このシステムの最大の特徴は、従来の3Dゲームエンジンのようなポリゴンベースのレンダリングではなく、「インタラクティブなビデオストリーム環境」を生成する点にあります。入力された操作に反応してリアルタイムでフレームが継続的に生成されるため、ユーザーはまるで夢の中を歩いているかのような、独特で没入感のある探索を楽しむことができます。

現在は初期の実験フェーズであるため、このツールには計算リソースの負荷を考慮したいくつかの厳格な技術的制約が設けられています。ユーザーがこの新しい技術を体験する際には、以下の仕様が適用されます。

  • セッション制限: リアルタイム生成に伴う膨大な計算負荷のため、1回のインタラクティブセッションは最大60秒間に制限されています。
  • パフォーマンス: 生成される環境の解像度は720p、フレームレートは24fps(秒間フレーム数)に設定されており、安定した視聴体験を提供します。
  • リミキシング機能: ユーザーは「リミックス」機能を通じて、一度生成された世界の芸術的なスタイルや物理的なルールを後から変更し、異なるバリエーションを試すことが可能です。

DeepMindのリサーチディレクターを務めるShlomi Fruchter氏は、このプロトタイプの目的について、標準的なレンダリング手法では実現不可能な独自のインタラクティブ能力を提示することにあると強調しています。この公開テストは、単なる技術デモ以上の意味を持っています。

今回のテストを通じて収集される広範なトレーニングデータは、ワールドモデルが物理法則や空間的な論理をより深く理解するために活用されます。これは、将来的にロボット工学や高度なシミュレーション分野において、より安全で知的な「実体化されたAI(embodied AI)」エージェントを開発するための重要な一歩となります。

Project Genieは、AIがデジタル空間だけでなく、物理的な世界を理解し相互作用するための新たな地平を切り拓こうとしています。このプロジェクトの進展は、次世代のAI開発におけるマイルストーンとなることが期待されています。

15 ビュー

ソース元

  • Cadena 3 Argentina

  • The Tech Buzz

  • The Tech Buzz

  • Android Authority

  • The Tech Buzz

  • Google DeepMind: The Podcast

エラーや不正確な情報を見つけましたか?できるだけ早くコメントを考慮します。