Gemini 3 Flash của Google DeepMind Tích Hợp Tầm Nhìn Tác Nhân Nâng Cao Khả Năng Hiểu Hình Ảnh
Chỉnh sửa bởi: gaya ❤️ one
Google DeepMind đã chính thức giới thiệu tính năng Tầm Nhìn Tác Nhân (Agentic Vision) cho mô hình Gemini 3 Flash, đánh dấu một bước tiến quan trọng trong lĩnh vực xử lý thị giác máy tính của trí tuệ nhân tạo. Sự bổ sung này chuyển đổi quá trình phân tích hình ảnh từ một hành động thụ động, một lần quét duy nhất, thành một chu trình điều tra chủ động, có sử dụng công cụ, nhằm mục đích tăng cường độ chính xác, đặc biệt trong các tác vụ đòi hỏi chi tiết tinh vi.
Trước đây, các mô hình đa phương thức tiên tiến thường xử lý hình ảnh thông qua một lần xem tĩnh, dẫn đến sai sót khi gặp phải dữ liệu thị giác nhỏ nhưng quan trọng, chẳng hạn như số sê-ri hoặc các ký hiệu mờ. Agentic Vision được thiết kế để khắc phục hạn chế cốt lõi này bằng cách áp dụng một vòng lặp có cấu trúc gồm Nghĩ, Hành động, Quan sát (Think, Act, Observe). Trong bước 'Nghĩ', mô hình xây dựng kế hoạch; bước 'Hành động' bao gồm việc thực thi mã Python để tinh chỉnh bằng chứng hình ảnh, ví dụ như phóng to hoặc cắt xén; và bước 'Quan sát' sử dụng kết quả đã biến đổi để đưa ra câu trả lời cuối cùng có cơ sở vững chắc.
Việc tích hợp khả năng thực thi mã lệnh vào Gemini 3 Flash đã mang lại những cải thiện đáng kể về hiệu suất, với đội ngũ Google ghi nhận mức tăng chất lượng ổn định từ 5–10% trên hầu hết các bảng xếp hạng thị giác. Một minh chứng cụ thể cho tính ứng dụng thực tiễn là báo cáo từ PlanCheckSolver.com, nơi họ xác nhận mức tăng độ chính xác lên tới 5% khi áp dụng phương pháp kiểm tra lặp đi lặp lại này. Các nền tảng mà người dùng có thể truy cập công nghệ này bao gồm Gemini API trong Google AI Studio và môi trường Vertex AI.
Một trong những ứng dụng nổi bật của Agentic Vision là khả năng tự động phóng to vào các chi tiết nhỏ trên các đầu vào có độ phân giải cao, một chức năng mà trước đây có thể yêu cầu người dùng phải nhắc lệnh cụ thể. Hơn nữa, tính năng này còn cho phép mô hình tương tác với môi trường bằng cách chú thích hình ảnh, sử dụng Python để vẽ trực tiếp lên khung hình nhằm củng cố lập luận, tạo ra một 'bản nháp trực quan' (visual scratchpad). Ví dụ, khi được yêu cầu đếm các chữ số trên bàn tay, mô hình sẽ vẽ các hộp giới hạn và nhãn số lên từng ngón tay để đảm bảo tính chính xác tuyệt đối, giảm thiểu hiện tượng ảo giác thường gặp trong các bài toán số học thị giác đa bước.
Sự phát triển này đại diện cho một sự thay đổi kiến trúc đáng kể, chuyển đổi mô hình từ nhận dạng thụ động sang điều tra chủ động, một khái niệm tương đồng với các hệ thống AI Tác nhân (Agentic AI) đang phát triển. Trong khi các mô hình ngôn ngữ lớn (LLM) như GPT-4 hay Gemini trước đây là nền tảng cho giao tiếp tự nhiên, Agentic Vision tích hợp khả năng lập kế hoạch và thực thi mã lệnh trực tiếp vào quá trình thị giác, giúp Gemini 3 Flash nhanh chóng tạo nguyên mẫu và duy trì sự chú ý đến chi tiết. Google DeepMind cho biết, ngoài việc tự động phóng to, các hành vi tác nhân mới đã được chứng minh thông qua Google AI Studio bao gồm chú thích hình ảnh trực tiếp và vẽ đồ thị trực quan. Công ty có kế hoạch tích hợp thêm các hành vi điều khiển bằng mã lệnh một cách ngầm định trong tương lai. Sự đổi mới này, được giới thiệu vào đầu năm 2026, là một nỗ lực nhằm cung cấp khả năng suy luận cấp chuyên gia cho các tác vụ trích xuất phức tạp, như hợp đồng dài hạn hoặc dữ liệu tài chính chi tiết, vượt xa khả năng của các mô hình thế hệ trước.
2 Lượt xem
Nguồn
MarkTechPost
Edge AI and Vision Alliance
The Keyword
r/singularity - Reddit
The Neuron
PlanCheckSolver
Đọc thêm tin tức về chủ đề này:
Bạn có phát hiện lỗi hoặc sai sót không?Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.