xAI Ra Mắt Grok 4.1: Bộ Não “Con Người Hơn” Cho Sáng Tạo Hình Ảnh và Giọng Nói

Tác giả: Veronika Radoslavskaya

xAI ra mắt Grok 4.1

Công ty trí tuệ nhân tạo xAI của Elon Musk vừa chính thức công bố Grok 4.1, một bản cập nhật lớn mang tính nền tảng, thay đổi cách thức AI tương tác với con người. Trong khi ngành công nghiệp AI thường tập trung vào sức mạnh tính toán thô, Grok 4.1 lại tạo ra sự khác biệt bằng cách ưu tiên “trí tuệ cảm xúc” và độ tin cậy. Mô hình mới này đóng vai trò là “công cụ lý luận” quan trọng, nâng cấp đáng kể khả năng xử lý giọng nói và cung cấp sức mạnh cho các công cụ hình ảnh đang phát triển của xAI.

Cải tiến nổi bật nhất trong Grok 4.1 là khả năng nắm bắt sắc thái, sự châm biếm và ý nghĩa cảm xúc tiềm ẩn. Trong bài đánh giá EQ-Bench3, một tiêu chuẩn đo lường sự đồng cảm của AI, mô hình mới đã đạt được 1.586 điểm, thể hiện sự cải thiện đáng kể so với các phiên bản trước đó.

Sự nâng cấp này có tác động trực tiếp đến Chế Độ Giọng Nói (Voice Mode). Người dùng tương tác với AI qua giọng nói sẽ nhận thấy một sự chuyển đổi rõ rệt: từ một cỗ máy hỏi đáp robot khô khan sang một đối tác đàm thoại có thể “đọc vị” được không khí và ngữ cảnh. Nhờ khả năng xử lý ý định và giọng điệu tinh tế, các cuộc tương tác bằng giọng nói trở nên tự nhiên và trôi chảy hơn rất nhiều.

Mặc dù Grok 4.1 chủ yếu là một trí thông minh dựa trên văn bản, nó lại đóng vai trò then chốt trong tham vọng đa phương thức của xAI. Mô hình này hoạt động như một “giám đốc sáng tạo”, sử dụng kỹ năng viết sáng tạo đạt kỷ lục của mình (ghi nhận 1.708 Elo) để diễn giải yêu cầu của người dùng và viết các lời nhắc chi tiết cao cấp cho các công cụ hình ảnh bên ngoài.

Hiện tại, khả năng này đang hỗ trợ việc tạo hình ảnh trên nền tảng (thông qua Flux) và các tính năng hoạt hình chuyển đổi hình ảnh thành video (image-to-video animation) mới nổi. Mặc dù tính năng tạo video hoàn chỉnh từ văn bản vẫn đang trong giai đoạn xem trước nội bộ, khả năng lý luận được cải thiện của Grok 4.1 cho phép người dùng biến các hình ảnh tĩnh thành các clip hoạt hình ngắn với độ chính xác cao hơn, bắc cầu hiệu quả giữa văn bản và hình ảnh chuyển động.

Điều quan trọng là mô hình đã trở nên trung thực hơn đáng kể. xAI đã áp dụng các kỹ thuật đào tạo tiên tiến để cắt giảm tỷ lệ “ảo giác” (tức là bịa đặt sự thật) trong các truy vấn thực tế từ 12.09% xuống chỉ còn 4.22%. Trên thang điểm FActScore nghiêm ngặt, tỷ lệ lỗi đã giảm gần hai phần ba, xuống dưới 3%, giải quyết một trong những phàn nàn lớn nhất của người dùng đối với AI tạo sinh.

Những số liệu nội bộ ấn tượng này được củng cố bởi ý kiến công chúng và đánh giá thị trường. Trên bảng xếp hạng đám đông ẩn danh LMArena’s “Text Arena”, Grok 4.1 đã giành được vị trí số một toàn cầu, vững vàng dẫn trước đối thủ gần nhất 31 điểm. Mô hình này hiện đang được triển khai rộng rãi cho người dùng trên nền tảng X và các ứng dụng di động, hứa hẹn mang lại trải nghiệm AI vượt trội.

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.