Gemini 2.5 Computer Use: Google Ra Mắt Công Cụ AI Tự Động Hóa Tương Tác Giao Diện Người Dùng

11:23, 09 tháng 10

Chỉnh sửa bởi: Veronika Radoslavskaya

Vào ngày 7 tháng 10 năm 2025, Google, hợp tác cùng Google DeepMind, đã chính thức công bố mô hình Gemini 2.5 Computer Use, một công cụ trí tuệ nhân tạo chuyên biệt được xây dựng trên nền tảng Gemini 2.5 Pro. Công nghệ này đánh dấu bước tiến quan trọng, cho phép các tác nhân AI tương tác trực tiếp với giao diện người dùng (UI) kỹ thuật số, thực hiện các hành động phức tạp như duyệt web, nhấp chuột, điền biểu mẫu và điều khiển ứng dụng di động, mô phỏng chính xác hành vi của con người.

Khác biệt với các phương thức giao tiếp qua API có cấu trúc truyền thống, mô hình Gemini 2.5 Computer Use hoạt động theo một chu trình tương tác liên tục: tiếp nhận yêu cầu, phân tích ảnh chụp màn hình giao diện, tạo ra hành động UI cụ thể, thực thi hành động đó, và lặp lại cho đến khi nhiệm vụ hoàn thành. Sự ra đời của công cụ này lấp đầy khoảng trống trong việc chuyển đổi từ nhận thức AI sang hành động trực tiếp trên môi trường đồ họa, cho phép xây dựng các tác nhân có khả năng thực hiện nhiệm vụ toàn diện hơn là chỉ là các chatbot đối thoại.

Sức mạnh của Gemini 2.5 Computer Use đã được chứng minh qua các bài kiểm tra hiệu suất. Mô hình này được ghi nhận là vượt trội hơn các giải pháp cạnh tranh trong các tiêu chuẩn chính như Online-Mind2Web, WebVoyager và AndroidWorld, đồng thời đạt được độ trễ thấp hơn đáng kể. Theo ước tính, nó vượt trội hơn Claude Sonnet 4.5 trong một số thử nghiệm nhất định. Đội ngũ nội bộ của Google cũng đã sử dụng nó để sửa các bài kiểm tra UI bị lỗi, khôi phục thành công lên đến 70% các lần chạy thử nghiệm thất bại.

Các nhà phát triển hiện có thể truy cập các khả năng này thông qua Gemini API trên các nền tảng Google AI Studio và Vertex AI dưới dạng bản xem trước (preview). Việc tự động hóa các quy trình làm việc lặp đi lặp lại hoặc phức tạp trong môi trường kỹ thuật số giờ đây trở nên khả thi hơn bao giờ hết. Tuy nhiên, do là mô hình xem trước, Google nhấn mạnh tầm quan trọng của việc giám sát chặt chẽ trong các tác vụ quan trọng, đặc biệt là những tác vụ liên quan đến dữ liệu nhạy cảm hoặc các quyết định có thể gây ra sai sót nghiêm trọng.

Nguồn

El Español
Introducing the Gemini 2.5 Computer Use model
Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use
Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do

Đọc thêm tin tức về chủ đề này:

19 tháng 10

Lưu Lượng Truy Cập Wikipedia Giảm 8% Giữa Làn Sóng AI: Wikimedia Kêu Gọi Thích Ứng Chiến Lược

13 tháng 10

Bản Cập Nhật Telegram Lớn: Thiết Kế “Kính Lỏng” và Đột Phá Tương Tác Trí Tuệ Nhân Tạo

07 tháng 10

ChatGPT Tích Hợp Ứng Dụng Bên Thứ Ba: Nền Tảng Năng Suất Toàn Diện

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.

Trung tâm thông báo

Trung tâm thông báo

Gemini 2.5 Computer Use: Google Ra Mắt Công Cụ AI Tự Động Hóa Tương Tác Giao Diện Người Dùng

Nguồn

Đọc thêm tin tức về chủ đề này: