GPT-5.2 Denken behaalt 96,9 op Japanse Toelatingsexamens 2026 in Nikkei-LifePrompt Test

Bewerkt door: Veronika Radoslavskaya

De recente testresultaten van geavanceerde kunstmatige intelligentie (AI) modellen op de Japanse Toelatingstest voor Universiteiten van 2026, de Common Test for University Admissions, bevestigen de snelle ontwikkeling van deze systemen. Op dinsdag 20 januari 2026 publiceerden de krant Nikkei en de Japanse AI-startup LifePrompt de uitkomsten van een gezamenlijk experiment. Het model GPT-5.2 Thinking van OpenAI behaalde een algemene score van 96,9 op 100 over vijftien hoofdvakken, waarmee de exponentiële vooruitgang in AI-capaciteiten wordt onderstreept. De eigenlijke afname van de test, die fungeert als een strenge maatstaf voor academische bekwaamheid in Japan, vond plaats op 17 en 18 januari 2026.

De prestaties van GPT-5.2 Thinking toonden een duidelijke superioriteit in kwantitatieve disciplines. Het model behaalde een perfecte score in negen van de vijftien geteste vakken, waaronder wiskunde, natuurkunde en scheikunde, wat de sterke punten in gestructureerde dataverwerking en logisch redeneren aantoont. Ter vergelijking behaalde Google's Gemini 3.0 Pro een totale score van 91,4. De geschatte gemiddelde score voor menselijke deelnemers in dezelfde vijftien populaire vakken voor 2026 lag met 58,1 aanzienlijk lager. Deze progressie, waarbij OpenAI's modellen stegen van een score van 66 in 2024 naar 91 in 2025 en nu 96,9, illustreert een versnelde leercurve in AI-prestaties.

Ondanks de hoge scores in de STEM-gebieden, identificeerde de analyse significante tekortkomingen in de geesteswetenschappen en het ruimtelijk inzicht van de AI. Het model maakte fouten bij het interpreteren van complexe grafische informatie, zoals wereldkaarten, wat wijst op een huidige beperking in het verwerken van onregelmatige visuele data. Satoshi Endo, hoofd van LifePrompt, merkte op dat hoewel de lees- en verwerkingsvaardigheden van de AI zijn verbeterd, het model moeite heeft met de adequate organisatie van informatie binnen de Japanse taal zelf. Deze bevindingen stellen de vraag of de huidige architectuur van grote taalmodellen volstaat voor taken die diepgaand cultureel begrip of genuanceerde visuele analyse vereisen, in plaats van louter patroonherkenning.

Dit experiment bouwt voort op de traditie van het gebruik van de Common Test als benchmark voor AI-capaciteiten, een praktijk die teruggaat tot het To-Robo-kun project van het National Institute of Informatics (NII). Dat eerdere project, dat in 2015 boven het gemiddelde scoorde, was bedoeld om de grenzen van AI in intellectuele arbeid te peilen, zoals besproken door professor Noriko Arai van de NII. Het doel van dergelijke initiatieven, die academische en industriële partijen samenbrengen, is het verhelderen van de sterke en zwakke punten van AI voor toekomstige maatschappelijke toepassingen. De Common Test for University Admissions, die in 2021 de National Center Test verving, werd in 2026 gehouden op de eerste zaterdag en zondag na 13 januari, waarbij ongeveer 496.237 kandidaten deelnamen op 650 tot 651 locaties. De resultaten van deze AI-test worden gezien als een indicator voor de integratie van AI in intellectuele beroepen en de potentiële transformatie van het onderwijssysteem, waarbij de 813 deelnemende universiteiten en hogescholen de impact op hun selectieprocessen zullen moeten evalueren.

3 Weergaven

Bronnen

  • AGERPRES

  • China.org.cn

  • Xinhua

  • Nippon.com

  • OfficeChai

  • EvoLink.AI

Heb je een fout of onnauwkeurigheid gevonden?We zullen je opmerkingen zo snel mogelijk in overweging nemen.