OpenAI Lança GDPval: Novo Marco para Medir o Impacto Econômico da IA em Diversos Setores

06:13, 26 setembro

Editado por: Veronika Radoslavskaya

On GDPval, expert graders compared outputs from leading models to human expert work. Claude Opus 4.1 delivered the strongest results, with just under half of its outputs rated as good as or better than expert work. Just as striking is the pace of progress: OpenAI’s frontier

4:24 PM · Sep 25, 2025

634

Read 13 replies

Watch on X

A OpenAI anunciou em 25 de setembro de 2025 o lançamento do GDPval, um novo e inovador teste de benchmark projetado para avaliar o desempenho de modelos de inteligência artificial (IA) em tarefas que geram valor econômico real. Este marco representa um avanço significativo na forma como a utilidade prática da IA é medida, afastando-se de avaliações puramente acadêmicas para focar em aplicações do mundo real.

O GDPval abrange nove setores principais da economia e avalia 44 profissões distintas, como engenheiros de software, enfermeiros e jornalistas. A metodologia envolveu especialistas da área comparando relatórios gerados por IA com seu próprio trabalho, selecionando as melhores produções. Os resultados iniciais revelaram que o modelo GPT-5 da OpenAI foi considerado superior ou igual a especialistas da indústria em 40,6% dos casos. No entanto, o modelo Claude Opus 4.1 da Anthropic superou o GPT-5, sendo considerado não inferior a especialistas em 49% das tarefas.

A OpenAI atribuiu parte da pontuação mais alta do Claude Opus 4.1 à sua capacidade de gerar gráficos mais esteticamente agradáveis, em vez de um desempenho intrinsecamente superior em todos os aspectos. Este novo benchmark demonstra o rápido progresso na capacidade da IA, com o desempenho do GPT-5 no GDPval quase triplicando em comparação com o GPT-4o, que obteve uma pontuação de apenas 13,7% em uma métrica semelhante cerca de 15 meses antes. Essa evolução sugere um futuro promissor para a IA em tarefas economicamente valiosas.

Em termos de eficiência de custos, as chamadas de API do GPT-5 são consideravelmente mais baixas do que as do Claude Opus 4.1. O GPT-5 custa US$ 1,25 por milhão de tokens de entrada e US$ 10 por milhão de tokens de saída, em comparação com US$ 15 e US$ 75, respectivamente, para o modelo da Anthropic. A relevância do GDPval reside na sua capacidade de fornecer uma medida tangível do impacto econômico da IA, alinhando-se com a crescente demanda das indústrias por retornos concretos sobre os investimentos em IA.

A iniciativa da OpenAI visa fundamentar as discussões sobre o futuro da IA em evidências concretas, permitindo que desenvolvedores e investidores compreendam melhor as capacidades reais dos modelos. Embora a versão atual do GDPval se concentre na geração de relatórios, a OpenAI planeja expandir os testes para incluir fluxos de trabalho mais interativos e abranger um escopo maior de profissões e indústrias. O desenvolvimento de benchmarks como o GDPval é crucial para acompanhar a evolução da IA e seu papel crescente no mercado de trabalho, com estudos indicando que a IA tem o potencial de aumentar a produtividade em até 15% nos mercados desenvolvidos.

52 Visualizações

Fontes

新浪财经
OpenAI发布GDPval基准测试，评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1

Centro de Notificações

OpenAI Lança GDPval: Novo Marco para Medir o Impacto Econômico da IA em Diversos Setores

Fontes

Leia mais artigos sobre este tema: