FlashLabs prezentuje Chroma 1.0: Przełom w dziedzinie otwartoźródłowej sztucznej inteligencji głosowej czasu rzeczywistego

Edytowane przez: Veronika Radoslavskaya

Laboratorium badawcze FlashLabs, specjalizujące się w praktycznych zastosowaniach sztucznej inteligencji, oficjalnie zaprezentowało Chroma 1.0. Jest to moment zwrotny w sposobie, w jaki ludzie komunikują się z maszynami za pomocą mowy. Chroma zyskała miano pierwszego na świecie otwartoźródłowego modelu typu end-to-end (E2E) do komunikacji głosowej, zaprojektowanego z myślą o działaniu z „ludzką prędkością”. Kluczowym osiągnięciem jest tutaj całkowite wyeliminowanie barier technicznych i opóźnień, które do tej pory były nieodłącznym elementem systemów głosowych. Dzięki odejściu od tradycyjnych, podzielonych procesów, model ten pozwala na prowadzenie niezwykle płynnych i naturalnych konwersacji, które potrafią oddać złożone emocje oraz błyskawiczną wymianę zdań między rozmówcami.

Większość dostępnych obecnie asystentów głosowych opiera się na złożonym, wieloetapowym schemacie działania. Proces ten obejmuje konwersję mowy na tekst (ASR), analizę treści przez model językowy (LLM), a na końcu syntezę odpowiedzi głosowej (TTS). Taka kaskadowa architektura nieuchronnie prowadzi do powstawania tzw. latencji, czyli odczuwalnej przerwy między zakończeniem pytania przez użytkownika a rozpoczęciem odpowiedzi przez AI. Chroma 1.0 zmienia te zasady, pracując natywnie w domenie dźwięku. Pozwala to na osiągnięcie wskaźnika Time to First Token (TTFT) na poziomie poniżej 150 milisekund. Tak krótki czas reakcji sprawia, że sztuczna inteligencja może natychmiastowo reagować na przerwania i zachowywać naturalną prozodię, w tym odpowiedni rytm i intonację, co było nieosiągalne dla starszych technologii.

Fundamentem innowacyjności Chroma 1.0 jest również jej zdolność do wysokiej jakości klonowania głosu. System potrzebuje zaledwie kilku sekund nagrania audio, aby wygenerować spersonalizowany, cyfrowy głos o wysokim stopniu autentyczności. W przeprowadzonych testach wewnętrznych model uzyskał imponujący wynik podobieństwa (SIM) wynoszący 0,817. Przedstawiciele FlashLabs podkreślają, że wynik ten jest o blisko 11% wyższy niż standardowy ludzki próg rozpoznawalności głosu. Oznacza to, że tworzenie unikalnych i rozpoznawalnych tożsamości głosowych nie wymaga już potężnych zbiorów danych ani wielogodzinnych sesji nagraniowych, co znacząco obniża próg wejścia dla twórców treści i deweloperów.

Pomimo swoich zaawansowanych możliwości rozumowania i analizy, Chroma 1.0 została zbudowana na stosunkowo lekkiej architekturze składającej się z około 4 miliardów parametrów. Taka efektywność sprawia, że model jest niezwykle wszechstronny i może być wdrażany w różnorodnych środowiskach. Do głównych obszarów zastosowań należą:

  • Autonomiczni agenci głosowi: Tworzenie responsywnych asystentów do użytku osobistego i profesjonalnego, którzy reagują bez zwłoki.
  • Wdrożenia lokalne (Edge): Możliwość uruchamiania modelu bezpośrednio na urządzeniach użytkowników, co gwarantuje niskie opóźnienia oraz najwyższy poziom prywatności danych.
  • Interaktywne postacie w grach (NPC): Umożliwienie postaciom w grach wideo prowadzenia nienapisanych, dynamicznych dialogów głosowych w czasie rzeczywistym.
  • Tłumaczenia natychmiastowe: Budowa narzędzi zdolnych do przekładu mowy niemal w tym samym momencie, w którym padają słowa.

FlashLabs udostępniło Chroma 1.0 jako projekt o otwartym kodzie źródłowym, co jest ruchem mającym na celu demokratyzację dostępu do najnowocześniejszych technologii AI. Wagi modelu są już dostępne na platformie Hugging Face, natomiast kod niezbędny do uruchomienia wnioskowania został opublikowany w serwisie GitHub. Takie podejście ma zachęcić badaczy i programistów z całego świata do rozwijania tej technologii i tworzenia nowej generacji inteligentnych systemów agentowych. Celem nadrzędnym jest stworzenie środowiska, w którym sztuczna inteligencja operuje z taką samą dynamiką i swobodą, jak ma to miejsce w przypadku naturalnej ludzkiej rozmowy.

41 Wyświetlenia

Źródła

  • IT News Online

  • PR Newswire

  • MarkTechPost

  • GitHub

  • Hugging Face

  • FlashIntel | Forbes Technology Council

Czy znalazłeś błąd lub niedokładność?Rozważymy Twoje uwagi tak szybko, jak to możliwe.