xAI представляє Grok 4.1: «Більш людський» інтелект для голосу та візуальної творчості

11:21, 18 листопада

Автор: Veronika Radoslavskaya

xAI запускає Grok 4.1

Компанія штучного інтелекту xAI, заснована Ілоном Маском, офіційно випустила Grok 4.1 — значне оновлення, яке докорінно змінює принципи взаємодії ШІ з людьми. Хоча індустрія здебільшого зосереджувалася на чистій обчислювальній потужності, Grok 4.1 вирізняється тим, що надає пріоритет «емоційному інтелекту» та надійності. Ця нова модель слугує критично важливим «механізмом міркування», що покращує голосові можливості xAI та живить її візуальні інструменти, які постійно розвиваються.

Найбільш разюче вдосконалення Grok 4.1 полягає в його здатності розуміти нюанси, сарказм та емоційний підтекст. У тесті EQ-Bench3, який вимірює рівень емпатії штучного інтелекту, нова модель продемонструвала суттєве покращення порівняно з попередніми ітераціями, набравши 1586 балів.

Це оновлення має безпосередній вплив на режим голосової взаємодії (Voice Mode). Користувачі, які спілкуються зі ШІ голосом, помітять значний перехід від роботизованої машини для запитань і відповідей до справжнього партнера по розмові, який здатен «читати атмосферу». Оскільки модель тепер може обробляти тонкі наміри та інтонації, голосові взаємодії стають більш природними та плавними.

Хоча Grok 4.1 є насамперед текстовим інтелектом, він відіграє ключову роль у мультимодальних амбіціях xAI. Модель функціонує як «креативний директор», використовуючи свої рекордні навички творчого письма (оцінка 1708 Elo) для інтерпретації запитів користувачів та написання високодеталізованих підказок для зовнішніх візуальних інструментів.

Наразі це забезпечує генерацію зображень на платформі (через Flux) та підтримує нові функції анімації «зображення-у-відео» (image-to-video animation), що з’являються. Хоча повна генерація тексту-у-відео залишається на стадії внутрішнього попереднього перегляду, покращена здатність Grok 4.1 до міркування дозволяє користувачам перетворювати статичні зображення на короткі анімовані кліпи з більшою точністю. Таким чином, ефективно долається розрив між текстом та рухомими візуальними елементами.

Надзвичайно важливо, що модель стала значно правдивішою. xAI застосувала передові методи навчання, щоб скоротити рівень галюцинацій (вигадування фактів) у відповідях на запити про реальний світ з 12.09% до лише 4.22%. На суворому тесті FActScore рівень помилок знизився майже на дві третини, опустившись нижче 3%. Це вирішує одну з найбільших претензій, які користувачі висувають до генеративного ШІ.

Ці внутрішні показники підтверджуються громадською думкою. На «Text Arena» від LMArena — анонімному краудсорсинговому рейтингу — Grok 4.1 забезпечив собі глобальне перше місце, комфортно випереджаючи найближчого конкурента на 31 бал.

Наразі модель поступово впроваджується для користувачів на платформі X та в мобільних додатках, обіцяючи нову еру більш людяної та надійної взаємодії зі штучним інтелектом.

xAI