OpenAI представляет GDPval: новый стандарт оценки экономического влияния ИИ

06:13, 26 сентября

Отредактировано: Veronika Radoslavskaya

On GDPval, expert graders compared outputs from leading models to human expert work. Claude Opus 4.1 delivered the strongest results, with just under half of its outputs rated as good as or better than expert work. Just as striking is the pace of progress: OpenAI’s frontier

4:24 PM · Sep 25, 2025

634

Read 13 replies

Watch on X

25 сентября 2025 года компания OpenAI представила GDPval — новаторский эталонный тест, призванный измерить реальную экономическую ценность, создаваемую моделями искусственного интеллекта. Этот шаг знаменует собой переход от абстрактных академических задач к оценке ИИ в контексте его практического применения в различных отраслях, отражая стремление к более глубокому пониманию его влияния на экономику.

GDPval оценивает производительность ИИ-моделей в задачах, генерирующих экономическую ценность. Тест охватывает 44 профессии в девяти ключевых отраслях, составляющих основу ВВП США, включая здравоохранение, финансы и производство. В рамках оценки эксперты отрасли сравнивают результаты работы ИИ с собственными достижениями, определяя, насколько модели превосходят или соответствуют человеческим стандартам. Основная цель — понять, как ИИ может помочь профессионалам экономить время и сосредоточиться на более значимой деятельности.

Первые испытания GDPval показали, что модель GPT-5 продемонстрировала впечатляющие результаты, будучи признанной превосходящей или равной экспертам в 40,6% случаев. Это почти утроило показатель GPT-4o, который около 15 месяцев назад достиг лишь 13,7% в аналогичных тестах. Однако модель Claude Opus 4.1 от Anthropic показала еще более высокий результат, превзойдя GPT-5 в некоторых метриках с показателем 49%. OpenAI отметила, что более высокий балл Claude частично обусловлен его склонностью генерировать более эстетически привлекательные графики, а не исключительно превосходством в производительности.

Введение GDPval происходит на фоне растущего осознания колоссального экономического потенциала ИИ. По оценкам McKinsey, генеративный ИИ может ежегодно приносить мировой экономике от 2,6 до 4,4 триллиона долларов, а IDC прогнозирует вклад в 19,9 триллиона долларов к 2030 году, что составит 3,5% мирового ВВП. Ожидается, что ИИ повысит производительность труда, причем McKinsey прогнозирует рост на 0,1–0,6% ежегодно до 2040 года. Генеральный директор Microsoft Сатья Наделла подчеркивает важность измерения успеха ИИ через его реальное экономическое влияние и рост ВВП, а не только через лабораторные тесты. GDPval соответствует этому подходу, фокусируясь на измеримой экономической ценности.

Хотя текущая версия теста ограничена генерацией отчетов, OpenAI планирует расширить его, включив более комплексные и интерактивные рабочие процессы. Анализ рынка показывает, что, несмотря на быстрые инвестиции, внедрение ИИ все еще находится на ранних стадиях: по данным Citi, лишь около 5% проектов генеративного ИИ полностью масштабированы. Тем не менее, такие компании, как OpenAI, активно работают над созданием инструментов, которые не только повышают эффективность, но и освобождают человеческий потенциал для более творческих и стратегических задач. Это отражает общую тенденцию к тому, что ИИ становится мощным инструментом для расширения человеческих возможностей, а не просто заменой.

GDPval представляет собой важный шаг к объективной оценке реальных возможностей ИИ. Предоставляя основанные на фактических данных сведения, этот бенчмарк помогает развеять спекуляции и дает более четкое представление о том, как ИИ может трансформировать различные отрасли и профессии. Он подчеркивает, что истинная ценность ИИ заключается в его способности повышать производительность, оптимизировать рабочие процессы и, в конечном итоге, способствовать экономическому росту, позволяя людям сосредоточиться на задачах, требующих глубокого понимания и креативности. Это развитие открывает новые горизонты для понимания и интеграции ИИ в нашу жизнь, способствуя прогрессу и создавая возможности для более осмысленной деятельности.

52 Просмотров

Источники

新浪财经
OpenAI发布GDPval基准测试，评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1

Читайте больше статей по этой теме:

09 апреля

Grammarly столкнулась с иском о нарушении права на публичность из-за ИИ-редактора стилей

06 апреля

Microsoft представила три собственные ИИ-модели на фоне споров о Copilot

06 апреля

Microsoft и Google заключают многолетние соглашения с SK Hynix на поставки DRAM с 2026 года

Вы нашли ошибку или неточность?Мы учтем ваши комментарии как можно скорее.