OpenAI Ra Mắt GDPval: Thước Đo Tác Động Kinh Tế Của AI Qua Các Ngành

Chỉnh sửa bởi: Veronika Radoslavskaya

Vào ngày 25 tháng 9 năm 2025, OpenAI đã công bố GDPval, một hệ thống đánh giá mới nhằm đo lường hiệu quả kinh tế của các mô hình trí tuệ nhân tạo (AI) trong các tác vụ thực tế. GDPval bao quát 9 lĩnh vực kinh tế trọng yếu của Hoa Kỳ và 44 ngành nghề khác nhau, từ kỹ sư phần mềm đến y tá và nhà báo. Trong giai đoạn đầu của bài kiểm tra, các chuyên gia đã so sánh các báo cáo do AI tạo ra với công việc của chính họ và chọn ra kết quả vượt trội.

Kết quả ban đầu cho thấy mô hình GPT-5 của OpenAI đạt hiệu suất ngang bằng hoặc vượt trội hơn các chuyên gia trong 40,6% trường hợp. Tuy nhiên, mô hình Claude Opus 4.1 của Anthropic lại có phần nhỉnh hơn với 49% tác vụ được đánh giá là không thua kém chuyên gia. OpenAI giải thích rằng điểm số cao hơn của Claude một phần là do khả năng tạo biểu đồ đẹp mắt hơn, chứ không hẳn là hiệu suất vượt trội hoàn toàn.

Tiến sĩ Aaron Chatterji, nhà kinh tế trưởng của OpenAI, nhấn mạnh rằng GDPval là một bước tiến quan trọng trong việc định lượng tác động kinh tế của AI. Ông cho rằng các mô hình AI có thể giúp các chuyên gia tiết kiệm thời gian, cho phép họ tập trung vào những công việc có giá trị cao hơn. Dữ liệu từ GDPval cho thấy hiệu suất của GPT-5 đã tăng gần gấp ba lần so với GPT-4o chỉ trong vòng 15 tháng, phản ánh tốc độ phát triển nhanh chóng của công nghệ này.

Tejal Patwardhan, người phụ trách đánh giá tại OpenAI, bày tỏ sự lạc quan về xu hướng này và dự đoán nó sẽ tiếp tục. Mặc dù phiên bản hiện tại của GDPval chỉ tập trung vào việc tạo báo cáo, OpenAI thừa nhận rằng đây mới chỉ là bước khởi đầu và có kế hoạch phát triển các bài kiểm tra toàn diện hơn trong tương lai, bao gồm nhiều ngành nghề và quy trình làm việc tương tác hơn. Điều này nhằm mục đích cung cấp một cái nhìn rõ ràng hơn về khả năng thực tế của AI, thay vì chỉ dựa trên suy đoán.

So sánh về chi phí, GPT-5 có lợi thế hơn Claude Opus 4.1 với chi phí API thấp hơn đáng kể, chỉ 1,25 USD cho một triệu token đầu vào và 10 USD cho một triệu token đầu ra, so với 15 USD và 75 USD tương ứng của Claude Opus 4.1. Sự chênh lệch này làm cho GPT-5 trở thành một lựa chọn hấp dẫn hơn cho các ứng dụng quy mô lớn. Việc ra mắt GDPval đánh dấu một bước tiến quan trọng trong việc đo lường giá trị kinh tế thực tế mà AI mang lại, giúp định hình tương lai của lực lượng lao động và các ngành công nghiệp.

Nguồn

  • 新浪财经

  • OpenAI发布GDPval基准测试,评估AI模型在经济价值工作中的表现

  • How GPT-5 compares to Claude Opus 4.1

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.

OpenAI Ra Mắt GDPval: Thước Đo Tác Động Ki... | Gaya One