OpenAI презентує GPT-5.2: Архітектура з трьох рівнів для професійних робочих процесів

20:38, 11 грудня

Автор: Veronika Radoslavskaya

OpenAI

@OpenAI

·Follow

Replying to @OpenAI

GPT-5.2 Thinking evals

6:18 PM · Dec 11, 2025

3.8K

Read 341 replies

Watch on X

OpenAI офіційно анонсувала випуск моделі GPT-5.2 11 грудня 2025 року. Ця версія запроваджує систему з трьох варіантів, спеціально розроблену для інтелектуальної роботи та застосувань автономних агентів. Компанія позиціонує цю лінійку як свою найбільш потужну на сьогодні, демонструючи відчутний прогрес у таких сферах, як створення електронних таблиць, підготовка презентацій, програмування, обробка візуальної інформації та міркування з розширеним контекстом.

Carl Vellotti 🥞

@carlvellotti

·Follow

Replying to @OpenAI

6:44 PM · Dec 11, 2025

Три спеціалізовані конфігурації

Лінійка GPT-5.2 включає три конфігурації: Instant, Thinking та Pro. Кожна з них оптимізована під певний рівень складності та сценарій використання. Модель Instant націлена на максимальну швидкість для рутинних завдань, таких як пошук інформації, написання текстів та переклад. Натомість, Thinking найкраще проявляє себе у складній структурованій роботі, включаючи кодування, аналіз довгих документів, математичні обчислення та планування. Варіант Pro є найпотужнішим у лінійці, призначеним для забезпечення найвищої точності та надійності при вирішенні найбільш нетривіальних проблем.

Прорив у бенчмарках

Модель GPT-5.2 Thinking встановила новий еталон, досягнувши стовідсоткової точності на математичному іспиті AIME 2025. Це справді вражаючий результат. Крім того, у тесті GDPval, який оцінює знання у 44 професійних сферах, ця модель перевершує або зрівнюється з галузевими експертами у 70,9% прямих порівнянь. Це перший випадок, коли модель від OpenAI досягла рівня експерта у завданнях, що мають високу економічну цінність. Аналізуючи внутрішні графіки OpenAI, GPT-5.2 Thinking випереджає Gemini 3 та Claude Opus 4.5 від Anthropic практично у всіх тестах на міркування, включаючи SWE-Bench Pro, GPQA Diamond та набори даних ARC-AGI.

Покращення у сфері розробки програмного забезпечення

У тесті SWE-Bench Pro, який перевіряє здатність моделі вирішувати реальні завдання з розробки програмного забезпечення різними мовами програмування, GPT-5.2 Thinking набрала 55,6%. Це помітне покращення порівняно з 50,8%, які показала GPT-5.1. Модель також продемонструвала результат 80% на верифікованому SWE-bench. Стартапи у сфері кодування, зокрема Windsurf та CharlieCode, вже відзначають передову продуктивність своїх агентів, що використовують цю технологію, та бачать вимірний приріст ефективності у багатоетапних робочих процесах.

Надійність та робота з контекстом

Надійність GPT-5.2 Thinking значно зросла: кількість помилок у відповідях скоротилася на 30% порівняно з попередньою версією. Це робить модель більш придатною для щоденного прийняття рішень, досліджень та написання важливих документів. Модель підтримує вікна контексту, що сягають сотень тисяч токенів, демонструючи майже ідеальну точність у завданнях із багаторазовим вирішенням кореференції. Також суттєво поліпшилися візуальні можливості: показники помилок при інтерпретації графіків та розумінні інтерфейсів програмного забезпечення скоротилися приблизно вдвічі.

Стратегічний контекст ринку

Випуск GPT-5.2 відбувається на тлі загострення конкуренції з Gemini 3 від Google, який наразі очолює більшість рейтингів LMArena, за винятком сегменту кодування. На початку цього місяця генеральний директор Сем Альтман, як повідомляється, розіслав внутрішній меморандум «червоної тривоги» персоналу через падіння трафіку ChatGPT та побоювання щодо втрати частки на споживчому ринку на користь Google. У цьому документі наголошувалося на необхідності перегляду пріоритетів, зокрема, призупинення зобов'язань щодо запровадження реклами та зосередження зусиль на створенні значно кращого досвіду роботи з ChatGPT.

Доступність для користувачів

GPT-5.2 вже розгортається серед передплатників ChatGPT (Plus, Pro, Business, Enterprise) і одночасно доступна через API у всіх трьох варіантах. OpenAI також анонсувала нові заходи безпеки, пов'язані з використанням системи у сфері психічного здоров'я та верифікацією віку для підлітків, хоча ці аспекти не були акцентовані під час презентації.

OpenAI