Google、デジタルインターフェース操作特化AI「Gemini 2.5 Computer Use」を発表:自律エージェント開発の新たな一歩
編集者: Veronika Radoslavskaya
Googleは2025年10月7日、ユーザーインターフェース(UI)との対話に特化した人工知能モデル、「Gemini 2.5 Computer Use」を発表しました。この発表は、デジタル世界における自律的なエージェントの構築に向けた重要な節目を示しています。この新しいモデルは、ウェブサイトの閲覧、ボタンのクリック、フォームへの入力といった、人間が日常的に行うデジタル操作を模倣し、自動化する能力を開発者に提供します。
この技術の核となるのは、Gemini 2.5 Proが持つ高度な視覚的理解力と推論能力です。Gemini 2.5 Computer Useは、ユーザーからの要求に基づき、スクリーンショットを分析し、クリックや入力などのUI操作を生成して実行します。その後、変化した画面を再度分析するという連続的なフィードバックループを回します。この仕組みにより、AIはまるで人間がブラウザを操作するかのように、見て、推論し、行動することが可能になります。
Google DeepMindが主導するこの取り組みは、単なる情報処理を超え、具体的なアクションへとAIの能力を拡張するものです。特に、API経由での操作が困難であったログイン操作や、ドロップダウンメニューの操作、フォームのネイティブな入力といったタスクをこなせる点が、汎用エージェント開発における決定的な一歩であると評価されています。ただし、購入などの高リスクな操作については、ユーザーによる確認が必須となる安全策が組み込まれています。
性能面では、Gemini 2.5 Computer Useは複数のウェブおよびモバイル制御ベンチマークにおいて、競合他社を凌駕する結果を示しており、特に低遅延での動作が際立っています。ある評価では、Claude Sonnet 4.5を特定のテストで上回るとされています。この高速性と高精度は、反復的なデジタルワークフローの自動化や、ウェブアプリケーションのテストにおいて即座に実用的な価値をもたらすでしょう。Google社内では、インターフェースのテストにおいて、テスト実行時の障害の最大70%を回復できることが示されています。
開発者コミュニティへの提供は、Google AI StudioおよびVertex AIプラットフォームを通じてAPI経由で開始されており、プレビュー版として利用可能です。この展開は、開発者がこの新しい能力を自らのワークフローに組み込み、次世代のスマートアシスタントや強力な自動化ソリューションを構築するための開かれた機会を意味します。この技術は、デジタル環境における人間の活動を映し出す鏡として、我々の作業のあり方を再構築する可能性を秘めています。
ソース元
El Español
Introducing the Gemini 2.5 Computer Use model
Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use
Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do
このトピックに関するさらに多くのニュースを読む:
エラーや不正確な情報を見つけましたか?
できるだけ早くコメントを考慮します。
