OpenAI ने 25 सितंबर, 2025 को GDPval नामक एक नया बेंचमार्क पेश किया है, जो विभिन्न उद्योगों में AI मॉडल के आर्थिक रूप से मूल्यवान कार्यों में प्रदर्शन का आकलन करता है। यह बेंचमार्क AI के विकास को अटकलों के बजाय साक्ष्य-आधारित प्रगति की ओर ले जाता है और यह ट्रैक करता है कि AI उन क्षेत्रों में उत्पादकता कैसे बढ़ाता है जो सीधे आर्थिक विकास में योगदान करते हैं।
शुरुआती परीक्षणों में, GPT-5 मॉडल ने 40.6% मामलों में उद्योग विशेषज्ञों के बराबर या उनसे बेहतर प्रदर्शन किया। इसकी तुलना में, 15 महीने पहले GPT-4o मॉडल ने केवल 13.7% का स्कोर किया था, जो GPT-5 के प्रदर्शन में लगभग तीन गुना वृद्धि दर्शाता है। हालांकि, एंथ्रोपिक के क्लाउड ओपस 4.1 मॉडल ने 49% कार्यों में खुद को बेहतर साबित किया, हालांकि OpenAI का मानना है कि यह मुख्य रूप से अधिक आकर्षक चार्ट बनाने की क्षमता के कारण था, न कि विशुद्ध रूप से बेहतर प्रदर्शन के कारण।
GDPval बेंचमार्क नौ प्रमुख उद्योगों, जैसे स्वास्थ्य सेवा, वित्त और विनिर्माण को कवर करता है, और इसमें सॉफ्टवेयर इंजीनियरों, नर्सों और पत्रकारों सहित 44 विभिन्न व्यवसायों को शामिल किया गया है। यह बेंचमार्क AI की समय बचाने और पेशेवरों को अधिक सार्थक कार्यों पर ध्यान केंद्रित करने में मदद करने की क्षमता का मूल्यांकन करता है। OpenAI के मुख्य अर्थशास्त्री, आरोन चटर्जी के अनुसार, AI मॉडल पेशेवरों को समय बचाने में मदद कर सकते हैं, जिससे वे अधिक महत्वपूर्ण कार्यों पर ध्यान केंद्रित कर सकें।
लागत-प्रभावशीलता के मामले में, GPT-5 API कॉल की लागत क्लाउड ओपस 4.1 की तुलना में काफी कम है। GPT-5 के लिए $1.25 प्रति मिलियन इनपुट टोकन और $10 प्रति मिलियन आउटपुट टोकन की लागत की तुलना में, क्लाउड ओपस 4.1 के लिए $15 प्रति मिलियन इनपुट टोकन और $75 प्रति मिलियन आउटपुट टोकन की लागत आती है।
OpenAI स्वीकार करता है कि वर्तमान GDPval परीक्षण, जो रिपोर्ट तैयार करने पर केंद्रित है, कई व्यवसायों के काम के पूरे दायरे को शामिल नहीं करता है। भविष्य में, कंपनी अधिक व्यापक परीक्षण विकसित करने की योजना बना रही है जो अधिक उद्योगों और इंटरैक्टिव वर्कफ़्लो को कवर करेगा। यह विकास AI के वास्तविक दुनिया के आर्थिक प्रभाव को मापने के लिए एक महत्वपूर्ण कदम है, जो व्यवसायों और नीति निर्माताओं को AI की क्षमताओं की स्पष्ट तस्वीर प्रदान करता है।