Google DeepMind、Gemini 3 Flashにエージェント的視覚を統合し画像理解を向上

編集者: gaya ❤️ one

Google DeepMindは、基盤モデルGemini 3 Flashに「エージェント的視覚(Agentic Vision)」機能を統合したと2026年初頭に発表した。この機能は、従来の単一パスでの画像処理から脱却し、視覚的証拠に基づいた能動的かつツールを活用する反復的なループへと画像理解のプロセスを転換させるアーキテクチャ上の変更である。

従来の最先端マルチモーダルモデルは、画像を一度に処理する「静的な一瞥」に依存しており、シリアル番号や遠隔地の標識といった微細な視覚データを見落とすと推測に頼らざるを得ない制約があった。エージェント的視覚は、この課題に対し、「思考(Think)、実行(Act)、観察(Observe)」の反復ループを導入する。このループでは、Pythonコードの実行が「実行(Act)」ステップとして組み込まれ、モデルは計画立案、画像のズーム、切り抜き、注釈付けといった操作を自律的に行い、その変換された出力をコンテキストウィンドウに戻して、より確固たる最終回答を導き出す。

このコード実行機能の統合により、Gemini 3 Flashはビジョンベンチマーク全体で一貫して5%から10%の品質向上を達成したとGoogleは報告している。具体的な応用例として、PlanCheckSolver.comのような企業は、この反復的な検査手法を用いて最大5%の精度向上を達成したと報告されている。また、高解像度の設計図の反復検証や、視覚的な「スクラッチパッド」としての注釈付けを通じて、多段階の視覚的算術や計数エラーの削減に貢献することが強調されている。例えば、Geminiアプリ内では、手の指の数を数える際にPythonを用いてバウンディングボックスと数値を描画する機能が、ピクセル単位の正確な理解を保証するために利用されている。

この新機能は、Google AI StudioのGemini APIおよびVertex AIを通じて開発者に提供されており、Geminiアプリ内でも「Thinking」モデル選択を通じて展開が開始されている。Google DeepMindは、将来的にはWeb検索や逆画像検索といったツールを追加し、さらに多くのコード駆動型動作を暗黙的に行うよう拡張する計画を表明している。Gemini 3 Flashの速度とコスト効率に加え、エージェント的視覚の統合は、複雑なエージェントワークフローへの対応能力を強化し、AIが現実世界とより深く関与する上での重要な一歩となる。

2 ビュー

ソース元

  • MarkTechPost

  • Edge AI and Vision Alliance

  • The Keyword

  • r/singularity - Reddit

  • The Neuron

  • PlanCheckSolver

エラーや不正確な情報を見つけましたか?できるだけ早くコメントを考慮します。