Google Ra Mắt Gemini 3, Mở Ra Kỷ Nguyên "Tư Duy Sâu" và Các Tác Nhân Tự Hành

18:50, 18 tháng 11

Tác giả: Veronika Radoslavskaya

Google ra mắt Gemini 3

Hai năm sau khi cơn sốt trí tuệ nhân tạo tạo sinh bùng nổ, Google đã chính thức phát hành Gemini 3. Đây là một mô hình được tuyên bố sẽ thay đổi hoàn toàn cục diện, chuyển từ các chatbot chỉ đơn thuần dự đoán văn bản sang các tác nhân AI có khả năng lập luận, lên kế hoạch và thực hiện hành động. Phiên bản mới này giới thiệu hai cấp độ chính: Gemini 3 Pro, đã có sẵn ngay lập tức, và chế độ Gemini 3 Deep Think mạnh mẽ hơn, được thiết kế đặc biệt để giải quyết các vấn đề phức tạp bằng cách thực hiện quá trình "tư duy" sâu sắc trước khi đưa ra phản hồi.

Tính năng nổi bật nhất của thế hệ này là sự tập trung vào "lập luận cơ học" (mechanistic reasoning). Việc ra mắt Gemini 3 Pro ngay lập tức đã chứng minh khả năng lập luận hàng đầu, đạt được 91.9% trên tiêu chuẩn GPQA Diamond đầy thách thức và 37.5% trên bài kiểm tra Humanity's Last Exam (HLE) mà không cần sử dụng bất kỳ công cụ hỗ trợ nào. Khả năng vượt trội này cho phép mô hình nắm bắt chiều sâu và sự tinh tế trong các lĩnh vực khoa học và toán học với mức độ tin cậy cực kỳ cao.

Chế độ Deep Think mới, sẽ sớm được cung cấp cho những người đăng ký Ultra, còn đẩy xa hơn nữa những giới hạn về khả năng giải quyết vấn đề. Được thiết kế để đối phó với những vấn đề phức tạp và mới mẻ nhất, Deep Think đã đạt điểm 45.1% trên ARC-AGI-2, một tiêu chuẩn nghiêm ngặt kiểm tra khả năng của AI trong việc giải các câu đố logic chưa từng được nhìn thấy, và 41.0% trên HLE. Chế độ nâng cao này được xây dựng để thực hiện việc giải quyết vấn đề thực sự, vượt xa khả năng truy xuất và tổng hợp thông tin thông thường.

Đối với cộng đồng nhà phát triển, sự kiện ra mắt còn đi kèm với một nền tảng mới gọi là Google Antigravity. Môi trường phát triển "ưu tiên tác nhân" (agent-first) này cho phép các kỹ sư phần mềm làm việc cộng tác với các tác nhân AI có quyền truy cập trực tiếp vào các thiết bị đầu cuối, trình duyệt và trình chỉnh sửa mã. Thay vì chỉ tự động hoàn thành một dòng mã, các tác nhân này có thể tự chủ lên kế hoạch, thực hiện và xác nhận các tác vụ phần mềm phức tạp. Google mô tả đây là công cụ tối thượng cho "lập trình theo cảm hứng" (vibe coding)—một phong cách lập trình nơi các nhà phát triển tập trung vào ý định sáng tạo cấp cao, còn AI xử lý các chi tiết triển khai.

Về phía người tiêu dùng, Gemini 3 tận dụng triệt để các khả năng đa phương thức (multimodal) và cửa sổ ngữ cảnh khổng lồ 1 triệu token—cho phép nó xử lý lượng dữ liệu khổng lồ, tương đương với hơn 1,500 trang văn bản hoặc toàn bộ các bài giảng video dài. Điều này mở ra khả năng nó hoạt động như một huấn luyện viên cá nhân chuyên nghiệp: ví dụ, mô hình có thể phân tích video về trận đấu pickleball của người dùng, xác định các lỗi cụ thể trong phong độ của họ, và ngay lập tức tạo ra một kế hoạch tập luyện tùy chỉnh.

Đối với sinh viên, mô hình có thể tiếp nhận các bài báo học thuật hoặc các video hướng dẫn dài và tạo ra các công cụ hỗ trợ học tập tương tác như flashcards (thẻ ghi nhớ) hoặc visualizations (trực quan hóa) để giúp họ nắm vững tài liệu một cách hiệu quả. Ngoài ra, nó cũng có khả năng giải mã các công thức nấu ăn viết tay phức tạp và chuyển đổi chúng sang định dạng kỹ thuật số tiện lợi.

Google cũng khẳng định sự thống trị của mình trên các bảng xếp hạng uy tín. Gemini 3 Pro đã chiếm vị trí dẫn đầu trên LMArena, một trang web đánh giá đám đông nơi người dùng đánh giá mù các mô hình AI, đạt điểm Elo là 1501. Sự thăng tiến ngay lập tức của mô hình lên vị trí hàng đầu này tiếp nối di sản của phiên bản tiền nhiệm, Gemini 2.5 Pro, vốn trước đây đã giữ thứ hạng cạnh tranh cao. Mô hình hiện đang được triển khai trên toàn bộ hệ sinh thái của Google, bao gồm ứng dụng Gemini, Vertex AI và "Chế độ AI" mới trong Google Search, tạo ra các mô phỏng tương tác ngay lập tức. Mặc dù chế độ "Deep Think" đang được giữ lại để kiểm tra an toàn lần cuối, mô hình Gemini 3 Pro cốt lõi đã hoạt động trực tuyến ngay hôm nay, báo hiệu rằng Google đã sẵn sàng đưa AI "tác nhân" vào tay hàng triệu người dùng thông qua hệ sinh thái của mình, bao gồm ứng dụng Gemini, Vertex AI và "Chế độ AI" mới trong Google Search, tạo ra các mô phỏng tương tác ngay lập tức.

Gemini