25 września 2025 roku OpenAI zaprezentowało innowacyjny system oceny sztucznej inteligencji, nazwany GDPval. Ten przełomowy benchmark ma na celu precyzyjne mierzenie wartości ekonomicznej generowanej przez modele AI w różnorodnych sektorach i profesjach. Inicjatywa ta stanowi znaczący krok w kierunku zrozumienia i kwantyfikacji realnego wpływu sztucznej inteligencji na gospodarkę, odchodząc od teoretycznych rozważań na rzecz mierzalnych wyników.
GDPval został zaprojektowany do oceny wydajności modeli AI w zadaniach, które bezpośrednio przekładają się na wartość ekonomiczną. Obejmuje on dziewięć kluczowych sektorów gospodarki USA, które odpowiadają za znaczną część PKB, oraz 44 różne zawody, od inżynierów oprogramowania po pielęgniarki i dziennikarzy. W pierwszej fazie testów eksperci branżowi porównywali raporty wygenerowane przez AI z własnymi pracami, wskazując na lepsze rozwiązania. Wyniki pokazały, że model GPT-5 uzyskał ocenę „lepszy lub równy” ekspertom w 40,6% przypadków. Model Claude Opus 4.1 firmy Anthropic osiągnął nieco lepszy wynik, nie będąc gorszym od ekspertów w 49% zadań, choć OpenAI sugeruje, że częściowo wynikało to z bardziej estetycznego prezentowania danych przez ten model, a niekoniecznie z przewagi merytorycznej. Porównując z wcześniejszymi osiągnięciami, GPT-5 niemal potroiło wyniki modelu GPT-4o z poprzedniego roku, który uzyskał jedynie 13,7% w podobnej metryce.
Oprócz oceny jakościowej, GDPval zwraca uwagę na aspekty kosztowe. Koszt wywołania API dla GPT-5 wynosi 1,25 USD za milion tokenów wejściowych i 10 USD za milion tokenów wyjściowych, podczas gdy dla Claude Opus 4.1 jest to odpowiednio 15 USD i 75 USD za milion tokenów. Ta różnica w cenie może mieć kluczowe znaczenie dla szerokiego wdrożenia AI w przedsiębiorstwach, które poszukują nie tylko wydajności, ale i opłacalności.
Eksperci wskazują, że prawdziwym miernikiem sukcesu AI nie są same benchmarki, lecz realny wzrost PKB i rozwój gospodarczy. OpenAI zdaje sobie sprawę z ograniczeń obecnej wersji GDPval, która skupia się głównie na generowaniu raportów. W przyszłości planowane są bardziej kompleksowe testy, obejmujące szerszy zakres branż i interaktywnych przepływów pracy, aby lepiej odzwierciedlić pełne spektrum obowiązków zawodowych. Dążenie do stworzenia narzędzi, które wspierają ludzką pracę, zamiast ją zastępować, jest kluczowe dla zapewnienia, że sztuczna inteligencja przyniesie korzyści całemu społeczeństwu. W szerszym kontekście, prognozy wskazują, że sztuczna inteligencja może dodać biliony dolarów do globalnego PKB w nadchodzących latach, usprawniając procesy i tworząc nowe możliwości. W miarę jak AI staje się coraz bardziej zaawansowana, jej wpływ na rynek pracy będzie ewoluował, podkreślając potrzebę adaptacji i ciągłego uczenia się w dynamicznie zmieniającym się środowisku zawodowym.