OpenAI прокладає шлях до розуміння ШІ завдяки дослідженню нової розрідженої моделі

Автор: Veronika Radoslavskaya

Внутрішня архітектура великих мовних моделей (ВММ) — складних нейронних мереж, які є основою сучасного штучного інтелекту, — тривалий час залишалася незрозумілою «чорною скринькою». Ця загадка створювала серйозні труднощі навіть для розробників, які їх створювали. Ми постійно бачимо вражаючі результати, які демонструють ВММ, проте те, як саме моделі досягають цих висновків, залишалося прихованою таємницею. Нещодавня дослідницька доповідь, опублікована компанією OpenAI, знаменує собою важливий прорив у сфері інтерпретованості, успішно представивши новий тип прозорої експериментальної моделі.

У центрі уваги дослідження опинилися невеликі трансформери типу «лише декодер» — специфічна архітектура, яку навчали виключно на коді Python. Важливо підкреслити, що ці моделі не призначені для широкого загального використання; вони є вузькоспеціалізованими інструментами, створеними виключно для наукового аналізу. Ключовою новацією стала методика, що отримала назву «розрідження ваг» (weight-sparsing). Вона примусово обмежує використання внутрішніх зв’язків моделі, обнуляючи понад 99,9% із них.

Це примусове розрідження призвело до вражаючого результату. Якщо у стандартній, щільній моделі виконання однієї функції (наприклад, виявлення програмної помилки) вимагає залучення широкої та заплутаної мережі зв’язків, то у нових розріджених моделях та сама функція ізолюється в окремий, мініатюрний і легко зрозумілий «контур». Вчені встановили, що ці контури виявилися приблизно у 16 разів меншими, ніж у порівнянних щільних моделях. Це дає змогу дослідникам точно ідентифікувати механізми, що стоять за поведінкою ШІ, що є колосальним кроком уперед для «механістичної інтерпретованості» — науки, яка вивчає процес мислення штучного інтелекту.

Наслідки цього відкриття для безпеки та довіри до ШІ є глибокими та багатообіцяючими. Якщо шкідлива поведінка, наприклад, генерація вразливого програмного коду, може бути відстежена до конкретного, ізольованого контуру, то теоретично його можна буде піддати «абляції» або хірургічному видаленню. Такий підхід забезпечує точніший і більш фундаментальний контроль безпеки, ніж просте застосування зовнішніх обмежувачів (guardrails) вже після того, як модель була створена.

Важливо розуміти, що розріджені моделі не замінять сучасні потужні ВММ. Вони навмисно обмежені і, відносно свого невеликого розміру, є надзвичайно дорогими та неефективними у навчанні. Їхня справжня цінність полягає в тому, що вони слугують «модельними організмами» — простими системами, аналогічними тим, що використовуються в біології, які дозволяють вченим осягнути фундаментальні принципи. Це дослідження закладає критично важливу основу. Існує надія, що в майбутньому вдасться побудувати «мости» від цих простих, зрозумілих контурів до розшифрування величезних, складних і щільних моделей, які вже трансформують наш світ.

Знайшли помилку чи неточність?

Ми розглянемо ваші коментарі якомога швидше.