Vào ngày 7 tháng 10 năm 2025, Google, hợp tác cùng Google DeepMind, đã chính thức công bố mô hình Gemini 2.5 Computer Use, một công cụ trí tuệ nhân tạo chuyên biệt được xây dựng trên nền tảng Gemini 2.5 Pro. Công nghệ này đánh dấu bước tiến quan trọng, cho phép các tác nhân AI tương tác trực tiếp với giao diện người dùng (UI) kỹ thuật số, thực hiện các hành động phức tạp như duyệt web, nhấp chuột, điền biểu mẫu và điều khiển ứng dụng di động, mô phỏng chính xác hành vi của con người.
Khác biệt với các phương thức giao tiếp qua API có cấu trúc truyền thống, mô hình Gemini 2.5 Computer Use hoạt động theo một chu trình tương tác liên tục: tiếp nhận yêu cầu, phân tích ảnh chụp màn hình giao diện, tạo ra hành động UI cụ thể, thực thi hành động đó, và lặp lại cho đến khi nhiệm vụ hoàn thành. Sự ra đời của công cụ này lấp đầy khoảng trống trong việc chuyển đổi từ nhận thức AI sang hành động trực tiếp trên môi trường đồ họa, cho phép xây dựng các tác nhân có khả năng thực hiện nhiệm vụ toàn diện hơn là chỉ là các chatbot đối thoại.
Sức mạnh của Gemini 2.5 Computer Use đã được chứng minh qua các bài kiểm tra hiệu suất. Mô hình này được ghi nhận là vượt trội hơn các giải pháp cạnh tranh trong các tiêu chuẩn chính như Online-Mind2Web, WebVoyager và AndroidWorld, đồng thời đạt được độ trễ thấp hơn đáng kể. Theo ước tính, nó vượt trội hơn Claude Sonnet 4.5 trong một số thử nghiệm nhất định. Đội ngũ nội bộ của Google cũng đã sử dụng nó để sửa các bài kiểm tra UI bị lỗi, khôi phục thành công lên đến 70% các lần chạy thử nghiệm thất bại.
Các nhà phát triển hiện có thể truy cập các khả năng này thông qua Gemini API trên các nền tảng Google AI Studio và Vertex AI dưới dạng bản xem trước (preview). Việc tự động hóa các quy trình làm việc lặp đi lặp lại hoặc phức tạp trong môi trường kỹ thuật số giờ đây trở nên khả thi hơn bao giờ hết. Tuy nhiên, do là mô hình xem trước, Google nhấn mạnh tầm quan trọng của việc giám sát chặt chẽ trong các tác vụ quan trọng, đặc biệt là những tác vụ liên quan đến dữ liệu nhạy cảm hoặc các quyết định có thể gây ra sai sót nghiêm trọng.