OpenAI Lança GDPval: Novo Marco para Medir o Impacto Econômico da IA em Diversos Setores
Editado por: Veronika Radoslavskaya
A OpenAI anunciou em 25 de setembro de 2025 o lançamento do GDPval, um novo e inovador teste de benchmark projetado para avaliar o desempenho de modelos de inteligência artificial (IA) em tarefas que geram valor econômico real. Este marco representa um avanço significativo na forma como a utilidade prática da IA é medida, afastando-se de avaliações puramente acadêmicas para focar em aplicações do mundo real.
O GDPval abrange nove setores principais da economia e avalia 44 profissões distintas, como engenheiros de software, enfermeiros e jornalistas. A metodologia envolveu especialistas da área comparando relatórios gerados por IA com seu próprio trabalho, selecionando as melhores produções. Os resultados iniciais revelaram que o modelo GPT-5 da OpenAI foi considerado superior ou igual a especialistas da indústria em 40,6% dos casos. No entanto, o modelo Claude Opus 4.1 da Anthropic superou o GPT-5, sendo considerado não inferior a especialistas em 49% das tarefas.
A OpenAI atribuiu parte da pontuação mais alta do Claude Opus 4.1 à sua capacidade de gerar gráficos mais esteticamente agradáveis, em vez de um desempenho intrinsecamente superior em todos os aspectos. Este novo benchmark demonstra o rápido progresso na capacidade da IA, com o desempenho do GPT-5 no GDPval quase triplicando em comparação com o GPT-4o, que obteve uma pontuação de apenas 13,7% em uma métrica semelhante cerca de 15 meses antes. Essa evolução sugere um futuro promissor para a IA em tarefas economicamente valiosas.
Em termos de eficiência de custos, as chamadas de API do GPT-5 são consideravelmente mais baixas do que as do Claude Opus 4.1. O GPT-5 custa US$ 1,25 por milhão de tokens de entrada e US$ 10 por milhão de tokens de saída, em comparação com US$ 15 e US$ 75, respectivamente, para o modelo da Anthropic. A relevância do GDPval reside na sua capacidade de fornecer uma medida tangível do impacto econômico da IA, alinhando-se com a crescente demanda das indústrias por retornos concretos sobre os investimentos em IA.
A iniciativa da OpenAI visa fundamentar as discussões sobre o futuro da IA em evidências concretas, permitindo que desenvolvedores e investidores compreendam melhor as capacidades reais dos modelos. Embora a versão atual do GDPval se concentre na geração de relatórios, a OpenAI planeja expandir os testes para incluir fluxos de trabalho mais interativos e abranger um escopo maior de profissões e indústrias. O desenvolvimento de benchmarks como o GDPval é crucial para acompanhar a evolução da IA e seu papel crescente no mercado de trabalho, com estudos indicando que a IA tem o potencial de aumentar a produtividade em até 15% nos mercados desenvolvidos.
Fontes
新浪财经
OpenAI发布GDPval基准测试,评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1
Leia mais notícias sobre este tema:
Google Incorpora SynthID e C2PA ao Gemini, Democratizando a Verificação de Proveniência da IA
Alibaba Entra na Corrida dos Óculos Inteligentes com os Quark AI Glasses, Focando em Bateria para o Dia Todo
Perplexity Lança Funcionalidade de Memória para Assistentes de IA, Personalizando o Contexto em Todos os Modelos
Encontrou um erro ou imprecisão?
Vamos considerar seus comentários assim que possível.
