FlashLabs презентує Chroma 1.0: Нова віха у розвитку відкритого голосового ШІ реального часу

Відредаговано: Veronika Radoslavskaya

Лабораторія прикладних досліджень у сфері штучного інтелекту FlashLabs офіційно оголосила про вихід Chroma 1.0. Ця подія позначає фундаментальний зсув у парадигмі того, як люди взаємодіють із системами штучного інтелекту за допомогою природного мовлення. Chroma представлена як перша у світі наскрізна (E2E) модель «мова-в-мову» з відкритим вихідним кодом, яка була спеціально розроблена для функціонування на швидкості людського спілкування. Головною метою розробників було повне усунення технічних затримок, які є невід’ємною частиною традиційних голосових систем минулих поколінь.

Завдяки відмові від застарілих та фрагментованих конвеєрів обробки даних, Chroma 1.0 забезпечує надзвичайно плавний, безперервний та природний діалог. Модель здатна розпізнавати та відтворювати складні комунікативні аспекти, зокрема тонкі емоційні нюанси та миттєву зміну черговості реплік у розмові. Це дозволяє користувачам відчувати справжню природність комунікації, де машина реагує на слова співрозмовника так само швидко та адекватно, як і жива людина.

Більшість існуючих сьогодні голосових асистентів покладаються на складний багатоетапний процес обробки запитів. Спочатку вони перетворюють мовлення користувача на текст (ASR), потім аналізують цей текст за допомогою великої мовної моделі (LLM) і лише на фінальному етапі синтезують вокальну відповідь (TTS). Такий каскадний підхід неминуче створює відчутну затримку, відому як латентність, що виникає між моментом закінчення фрази людиною та початком мовлення ШІ.

Chroma 1.0 працює з голосом нативно на всіх етапах, досягаючи вражаючого показника «часу до першого токена» (TTFT) менше ніж 150 мс. Така майже миттєва швидкість реакції дозволяє системі адекватно реагувати на переривання з боку користувача та зберігати природну просодію — ритміку, темп та інтонацію людської мови. Це позбавляє взаємодію тих неприродних і дратівливих пауз, які зазвичай притаманні старішим технологічним рішенням у сфері голосових інтерфейсів.

Однією з ключових та найбільш вражаючих особливостей нової моделі є її передова здатність до високоточного клонування голосу. Для створення унікального та персоналізованого цифрового голосу системі потрібно лише кілька секунд вхідного аудіоматеріалу. Під час внутрішніх оцінок та тестів модель продемонструвала коефіцієнт подібності мовця (SIM) на рівні 0.817. У лабораторії FlashLabs окремо зазначають, що цей показник майже на 11% перевищує людський базовий рівень розпізнавання голосу.

Це відкриття свідчить про те, що високоякісні та впізнавані голосові ідентичності тепер можна генерувати без необхідності збирати величезні масиви даних або проводити виснажливі цикли тонкого налаштування. Попри свої складні аналітичні можливості та високу точність міркувань, Chroma 1.0 побудована на базі компактної архітектури, що містить приблизно 4 мільярди параметрів. Така технічна ефективність робить модель придатною для широкого спектра практичних завдань у різних сферах діяльності.

Зокрема, Chroma 1.0 відкриває нові можливості для розробки автономних голосових агентів, які можуть стати надійними помічниками у професійній діяльності. Також модель ідеально підходить для локального розгортання безпосередньо на кінцевих пристроях (Edge deployment), де пріоритетом є низька затримка та конфіденційність даних. Окрім цього, технологія може бути інтегрована у відеоігри для створення неігрових персонажів (NPC), здатних до живого спілкування.

Сфери практичного застосування Chroma 1.0 включають наступні напрямки:

  • Автономні голосові агенти: створення інтелектуальних та чуйних помічників для бізнесу та приватних користувачів.
  • Локальне розгортання: запуск моделі безпосередньо на гаджетах для забезпечення максимальної безпеки даних.
  • Інтерактивні NPC: впровадження неігрових персонажів у геймінгу, здатних вести нешаблонні діалоги в реальному часі.
  • Синхронний переклад: розробка інструментів, що здатні перекладати усне мовлення майже одночасно з мовцем.

FlashLabs випустила Chroma 1.0 як проект із повністю відкритим вихідним кодом. Ваги моделі вже доступні для завантаження на платформі Hugging Face, а код для виконання (інференсу) розміщено у репозиторії на GitHub. Такий відкритий підхід покликаний надати розробникам у всьому світі можливість вільно будувати власні рішення на основі цієї технології. Це стимулює початок нової ери інтелектуальних систем, що працюють зі швидкістю природної людської розмови.

41 Перегляди

Джерела

  • IT News Online

  • PR Newswire

  • MarkTechPost

  • GitHub

  • Hugging Face

  • FlashIntel | Forbes Technology Council

Знайшли помилку чи неточність?Ми розглянемо ваші коментарі якомога швидше.