On GDPval, expert graders compared outputs from leading models to human expert work. Claude Opus 4.1 delivered the strongest results, with just under half of its outputs rated as good as or better than expert work. Just as striking is the pace of progress: OpenAI’s frontier
OpenAI представляет GDPval: новый стандарт оценки экономического влияния ИИ
Отредактировано: Veronika Radoslavskaya
25 сентября 2025 года компания OpenAI представила GDPval — новаторский эталонный тест, призванный измерить реальную экономическую ценность, создаваемую моделями искусственного интеллекта. Этот шаг знаменует собой переход от абстрактных академических задач к оценке ИИ в контексте его практического применения в различных отраслях, отражая стремление к более глубокому пониманию его влияния на экономику.
GDPval оценивает производительность ИИ-моделей в задачах, генерирующих экономическую ценность. Тест охватывает 44 профессии в девяти ключевых отраслях, составляющих основу ВВП США, включая здравоохранение, финансы и производство. В рамках оценки эксперты отрасли сравнивают результаты работы ИИ с собственными достижениями, определяя, насколько модели превосходят или соответствуют человеческим стандартам. Основная цель — понять, как ИИ может помочь профессионалам экономить время и сосредоточиться на более значимой деятельности.
Первые испытания GDPval показали, что модель GPT-5 продемонстрировала впечатляющие результаты, будучи признанной превосходящей или равной экспертам в 40,6% случаев. Это почти утроило показатель GPT-4o, который около 15 месяцев назад достиг лишь 13,7% в аналогичных тестах. Однако модель Claude Opus 4.1 от Anthropic показала еще более высокий результат, превзойдя GPT-5 в некоторых метриках с показателем 49%. OpenAI отметила, что более высокий балл Claude частично обусловлен его склонностью генерировать более эстетически привлекательные графики, а не исключительно превосходством в производительности.
Введение GDPval происходит на фоне растущего осознания колоссального экономического потенциала ИИ. По оценкам McKinsey, генеративный ИИ может ежегодно приносить мировой экономике от 2,6 до 4,4 триллиона долларов, а IDC прогнозирует вклад в 19,9 триллиона долларов к 2030 году, что составит 3,5% мирового ВВП. Ожидается, что ИИ повысит производительность труда, причем McKinsey прогнозирует рост на 0,1–0,6% ежегодно до 2040 года. Генеральный директор Microsoft Сатья Наделла подчеркивает важность измерения успеха ИИ через его реальное экономическое влияние и рост ВВП, а не только через лабораторные тесты. GDPval соответствует этому подходу, фокусируясь на измеримой экономической ценности.
Хотя текущая версия теста ограничена генерацией отчетов, OpenAI планирует расширить его, включив более комплексные и интерактивные рабочие процессы. Анализ рынка показывает, что, несмотря на быстрые инвестиции, внедрение ИИ все еще находится на ранних стадиях: по данным Citi, лишь около 5% проектов генеративного ИИ полностью масштабированы. Тем не менее, такие компании, как OpenAI, активно работают над созданием инструментов, которые не только повышают эффективность, но и освобождают человеческий потенциал для более творческих и стратегических задач. Это отражает общую тенденцию к тому, что ИИ становится мощным инструментом для расширения человеческих возможностей, а не просто заменой.
GDPval представляет собой важный шаг к объективной оценке реальных возможностей ИИ. Предоставляя основанные на фактических данных сведения, этот бенчмарк помогает развеять спекуляции и дает более четкое представление о том, как ИИ может трансформировать различные отрасли и профессии. Он подчеркивает, что истинная ценность ИИ заключается в его способности повышать производительность, оптимизировать рабочие процессы и, в конечном итоге, способствовать экономическому росту, позволяя людям сосредоточиться на задачах, требующих глубокого понимания и креативности. Это развитие открывает новые горизонты для понимания и интеграции ИИ в нашу жизнь, способствуя прогрессу и создавая возможности для более осмысленной деятельности.
Источники
新浪财经
OpenAI发布GDPval基准测试,评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1
Читайте больше новостей по этой теме:
Introducing Nano Banana 2: Our best image generation and editing model yet. 🍌 Pro-level quality, at Flash speed. Rolling out today across @GeminiApp, Search, and our developer and creativity tools.


