A OpenAI anunciou em 25 de setembro de 2025 o lançamento do GDPval, um novo e inovador teste de benchmark projetado para avaliar o desempenho de modelos de inteligência artificial (IA) em tarefas que geram valor econômico real. Este marco representa um avanço significativo na forma como a utilidade prática da IA é medida, afastando-se de avaliações puramente acadêmicas para focar em aplicações do mundo real.
O GDPval abrange nove setores principais da economia e avalia 44 profissões distintas, como engenheiros de software, enfermeiros e jornalistas. A metodologia envolveu especialistas da área comparando relatórios gerados por IA com seu próprio trabalho, selecionando as melhores produções. Os resultados iniciais revelaram que o modelo GPT-5 da OpenAI foi considerado superior ou igual a especialistas da indústria em 40,6% dos casos. No entanto, o modelo Claude Opus 4.1 da Anthropic superou o GPT-5, sendo considerado não inferior a especialistas em 49% das tarefas.
A OpenAI atribuiu parte da pontuação mais alta do Claude Opus 4.1 à sua capacidade de gerar gráficos mais esteticamente agradáveis, em vez de um desempenho intrinsecamente superior em todos os aspectos. Este novo benchmark demonstra o rápido progresso na capacidade da IA, com o desempenho do GPT-5 no GDPval quase triplicando em comparação com o GPT-4o, que obteve uma pontuação de apenas 13,7% em uma métrica semelhante cerca de 15 meses antes. Essa evolução sugere um futuro promissor para a IA em tarefas economicamente valiosas.
Em termos de eficiência de custos, as chamadas de API do GPT-5 são consideravelmente mais baixas do que as do Claude Opus 4.1. O GPT-5 custa US$ 1,25 por milhão de tokens de entrada e US$ 10 por milhão de tokens de saída, em comparação com US$ 15 e US$ 75, respectivamente, para o modelo da Anthropic. A relevância do GDPval reside na sua capacidade de fornecer uma medida tangível do impacto econômico da IA, alinhando-se com a crescente demanda das indústrias por retornos concretos sobre os investimentos em IA.
A iniciativa da OpenAI visa fundamentar as discussões sobre o futuro da IA em evidências concretas, permitindo que desenvolvedores e investidores compreendam melhor as capacidades reais dos modelos. Embora a versão atual do GDPval se concentre na geração de relatórios, a OpenAI planeja expandir os testes para incluir fluxos de trabalho mais interativos e abranger um escopo maior de profissões e indústrias. O desenvolvimento de benchmarks como o GDPval é crucial para acompanhar a evolução da IA e seu papel crescente no mercado de trabalho, com estudos indicando que a IA tem o potencial de aumentar a produtividade em até 15% nos mercados desenvolvidos.