Mô hình GPT-5.2 của OpenAI đạt điểm gần tuyệt đối trong kỳ thi tuyển sinh đại học Nhật Bản 2026

17:41, 20 tháng 1

Chỉnh sửa bởi: Veronika Radoslavskaya

Mô hình GPT-5.2 của OpenAI đạt điểm gần tuyệt đối trong kỳ thi tuyển sinh đại học Nhật Bản 2026-1

Vào ngày 20 tháng 1 năm 2026, các kết quả đã được báo cáo từ một thử nghiệm chung do tờ báo Nikkei và công ty khởi nghiệp AI LifePrompt của Nhật Bản tiến hành, liên quan đến việc các mô hình trí tuệ nhân tạo tiên tiến tham gia Kỳ thi Tuyển sinh Đại học Chung của Nhật Bản năm 2026, diễn ra từ ngày 17 đến 18 tháng 1 năm 2026. Mô hình GPT-5.2 Thinking của OpenAI, một sản phẩm từ Hoa Kỳ, đã thể hiện hiệu suất vượt trội, đạt tổng điểm 96,9 trên thang điểm 100 qua 15 môn học chính được kiểm tra. Sự kiện này đánh dấu một bước tiến đáng kể trong khả năng của AI trong lĩnh vực đánh giá học thuật, đặc biệt khi so sánh với điểm trung bình ước tính của thí sinh nhân loại trong 15 môn phổ biến nhất năm 2026 là 58,1.

Trong khuôn khổ thử nghiệm toàn diện, các mô hình AI hàng đầu, bao gồm cả Gemini 3.0 Pro của Google, đã được đưa ra để giải quyết các câu hỏi từ 15 môn học lớn trong kỳ thi tuyển sinh đại học Nhật Bản. Trong khi GPT-5.2 Thinking đạt được điểm tuyệt đối ở chín trong số 15 môn, Gemini 3.0 Pro của Google đã ghi được tổng điểm là 91,4. Phân tích hiệu suất cho thấy các mô hình AI này đặc biệt xuất sắc trong các lĩnh vực định lượng như toán học, vật lý, hóa học và sinh học, nơi chúng thể hiện khả năng xử lý dữ liệu có cấu trúc và suy luận logic mạnh mẽ. Sự tiến bộ này thể hiện qua chuỗi điểm số của các mô hình OpenAI, tăng từ mức 66 vào năm 2024 lên 91 vào năm 2025, trước khi đạt 96,9 vào năm 2026.

Tuy nhiên, kết quả cũng chỉ ra những giới hạn cố hữu trong công nghệ AI hiện tại, đặc biệt là trong các lĩnh vực đòi hỏi sự nhạy bén về nhân văn và khả năng suy luận không gian phức tạp. Các mô hình đã mắc lỗi trong các câu hỏi yêu cầu giải thích bản đồ thế giới, điều này cho thấy những thách thức còn tồn tại trong việc nhận dạng thông tin đồ họa phức tạp và không đều. Satoshi Endo, người đứng đầu LifePrompt, lưu ý rằng mặc dù AI đã đạt điểm tuyệt đối trong toán học nhờ khả năng xử lý và đọc được cải thiện, nó vẫn gặp khó khăn với ngôn ngữ Nhật Bản, chỉ đạt 90% trong bài kiểm tra tiếng Nhật.

Kỳ thi Tuyển sinh Đại học Chung của Nhật Bản, được quản lý bởi Trung tâm Khảo thí Tuyển sinh Đại học Quốc gia, bao gồm tổng cộng 21 môn học trải rộng trên bảy lĩnh vực. Bối cảnh lịch sử cho thấy nỗ lực đánh giá năng lực AI trong các lĩnh vực tri thức của con người đã diễn ra từ trước, với dự án To-Robo-kun của Viện Tin học Quốc gia, dự án này đã đạt điểm trên mức trung bình vào năm 2015. Mục tiêu của dự án To-Robo-kun là nâng cao độ chính xác của các kỹ thuật AI và đi sâu vào hiểu biết về tư duy con người, với hy vọng AI sẽ đủ thông minh để vào được Đại học Tokyo vào năm 2021.

Sự kiện thử nghiệm năm 2026 này, với việc các mô hình tiên tiến vượt xa mức trung bình của con người, đặt ra những câu hỏi về sự dịch chuyển của lao động trí tuệ và sự cần thiết phải hiện đại hóa các hệ thống giáo dục. Các trường đại học Nhật Bản, tổng cộng có 813 cơ sở sử dụng kết quả kỳ thi này để sàng lọc đầu vào, đang phải đối mặt với thực tế mới về khả năng của AI. Sự chênh lệch hiệu suất giữa các môn định lượng và các môn nhân văn/không gian nhấn mạnh rằng mặc dù các mô hình ngôn ngữ lớn (LLM) có thể tạo ra các câu trả lời dựa trên xác suất từ dữ liệu khổng lồ, chúng vẫn chưa đạt đến mức độ hiểu biết sâu sắc cần thiết cho các câu hỏi không được tiêu chuẩn hóa hoặc đòi hỏi sự diễn giải trực quan phức tạp. Những kết quả này củng cố quan điểm rằng việc phát triển các phương pháp đánh giá mới, tập trung vào tư duy phản biện, giải quyết vấn đề và ứng dụng kiến thức, là điều cần thiết trong bối cảnh công nghệ AI ngày càng phát triển mạnh mẽ tại Nhật Bản, nơi 92% công ty có kế hoạch tích hợp AI vào hoạt động của mình vào năm 2025.