On GDPval, expert graders compared outputs from leading models to human expert work. Claude Opus 4.1 delivered the strongest results, with just under half of its outputs rated as good as or better than expert work. Just as striking is the pace of progress: OpenAI’s frontier
OpenAI Lança GDPval: Novo Marco para Medir o Impacto Econômico da IA em Diversos Setores
Editado por: Veronika Radoslavskaya
A OpenAI anunciou em 25 de setembro de 2025 o lançamento do GDPval, um novo e inovador teste de benchmark projetado para avaliar o desempenho de modelos de inteligência artificial (IA) em tarefas que geram valor econômico real. Este marco representa um avanço significativo na forma como a utilidade prática da IA é medida, afastando-se de avaliações puramente acadêmicas para focar em aplicações do mundo real.
O GDPval abrange nove setores principais da economia e avalia 44 profissões distintas, como engenheiros de software, enfermeiros e jornalistas. A metodologia envolveu especialistas da área comparando relatórios gerados por IA com seu próprio trabalho, selecionando as melhores produções. Os resultados iniciais revelaram que o modelo GPT-5 da OpenAI foi considerado superior ou igual a especialistas da indústria em 40,6% dos casos. No entanto, o modelo Claude Opus 4.1 da Anthropic superou o GPT-5, sendo considerado não inferior a especialistas em 49% das tarefas.
A OpenAI atribuiu parte da pontuação mais alta do Claude Opus 4.1 à sua capacidade de gerar gráficos mais esteticamente agradáveis, em vez de um desempenho intrinsecamente superior em todos os aspectos. Este novo benchmark demonstra o rápido progresso na capacidade da IA, com o desempenho do GPT-5 no GDPval quase triplicando em comparação com o GPT-4o, que obteve uma pontuação de apenas 13,7% em uma métrica semelhante cerca de 15 meses antes. Essa evolução sugere um futuro promissor para a IA em tarefas economicamente valiosas.
Em termos de eficiência de custos, as chamadas de API do GPT-5 são consideravelmente mais baixas do que as do Claude Opus 4.1. O GPT-5 custa US$ 1,25 por milhão de tokens de entrada e US$ 10 por milhão de tokens de saída, em comparação com US$ 15 e US$ 75, respectivamente, para o modelo da Anthropic. A relevância do GDPval reside na sua capacidade de fornecer uma medida tangível do impacto econômico da IA, alinhando-se com a crescente demanda das indústrias por retornos concretos sobre os investimentos em IA.
A iniciativa da OpenAI visa fundamentar as discussões sobre o futuro da IA em evidências concretas, permitindo que desenvolvedores e investidores compreendam melhor as capacidades reais dos modelos. Embora a versão atual do GDPval se concentre na geração de relatórios, a OpenAI planeja expandir os testes para incluir fluxos de trabalho mais interativos e abranger um escopo maior de profissões e indústrias. O desenvolvimento de benchmarks como o GDPval é crucial para acompanhar a evolução da IA e seu papel crescente no mercado de trabalho, com estudos indicando que a IA tem o potencial de aumentar a produtividade em até 15% nos mercados desenvolvidos.
Fontes
新浪财经
OpenAI发布GDPval基准测试,评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1
Leia mais notícias sobre este tema:
Introducing Nano Banana 2: Our best image generation and editing model yet. 🍌 Pro-level quality, at Flash speed. Rolling out today across @GeminiApp, Search, and our developer and creativity tools.


