Google、デジタルインターフェース操作特化AI「Gemini 2.5 Computer Use」を発表:自律エージェント開発の新たな一歩

編集者: Veronika Radoslavskaya

Googleは2025年10月7日、ユーザーインターフェース(UI)との対話に特化した人工知能モデル、「Gemini 2.5 Computer Use」を発表しました。この発表は、デジタル世界における自律的なエージェントの構築に向けた重要な節目を示しています。この新しいモデルは、ウェブサイトの閲覧、ボタンのクリック、フォームへの入力といった、人間が日常的に行うデジタル操作を模倣し、自動化する能力を開発者に提供します。

この技術の核となるのは、Gemini 2.5 Proが持つ高度な視覚的理解力と推論能力です。Gemini 2.5 Computer Useは、ユーザーからの要求に基づき、スクリーンショットを分析し、クリックや入力などのUI操作を生成して実行します。その後、変化した画面を再度分析するという連続的なフィードバックループを回します。この仕組みにより、AIはまるで人間がブラウザを操作するかのように、見て、推論し、行動することが可能になります。

Google DeepMindが主導するこの取り組みは、単なる情報処理を超え、具体的なアクションへとAIの能力を拡張するものです。特に、API経由での操作が困難であったログイン操作や、ドロップダウンメニューの操作、フォームのネイティブな入力といったタスクをこなせる点が、汎用エージェント開発における決定的な一歩であると評価されています。ただし、購入などの高リスクな操作については、ユーザーによる確認が必須となる安全策が組み込まれています。

性能面では、Gemini 2.5 Computer Useは複数のウェブおよびモバイル制御ベンチマークにおいて、競合他社を凌駕する結果を示しており、特に低遅延での動作が際立っています。ある評価では、Claude Sonnet 4.5を特定のテストで上回るとされています。この高速性と高精度は、反復的なデジタルワークフローの自動化や、ウェブアプリケーションのテストにおいて即座に実用的な価値をもたらすでしょう。Google社内では、インターフェースのテストにおいて、テスト実行時の障害の最大70%を回復できることが示されています。

開発者コミュニティへの提供は、Google AI StudioおよびVertex AIプラットフォームを通じてAPI経由で開始されており、プレビュー版として利用可能です。この展開は、開発者がこの新しい能力を自らのワークフローに組み込み、次世代のスマートアシスタントや強力な自動化ソリューションを構築するための開かれた機会を意味します。この技術は、デジタル環境における人間の活動を映し出す鏡として、我々の作業のあり方を再構築する可能性を秘めています。

ソース元

  • El Español

  • Introducing the Gemini 2.5 Computer Use model

  • Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use

  • Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do

エラーや不正確な情報を見つけましたか?

できるだけ早くコメントを考慮します。