FlashLabs 發表 Chroma 1.0：開源即時語音 AI 的重大里程碑

19:58, 22 一月

编辑者： Veronika Radoslavskaya

iframe { display: none; }

FlashLabs 發表 Chroma 1.0：開源即時語音 AI 的重大里程碑

應用人工智慧研究實驗室 FlashLabs 近日正式發表 Chroma 1.0，這項突破性技術預示著人類與 AI 語音互動方式的重大變革。作為全球首款開源的端到端（E2E）語音對語音模型，Chroma 1.0 專為實現「人類溝通速度」而設計，徹底消除了傳統語音系統中難以避免的技術延遲。透過捨棄零碎的處理流程，該模型能支持流暢且自然的對話體驗，甚至能捕捉細微的情緒變化並實現即時的對話輪替。

傳統的語音助手通常依賴多步驟的串聯架構：先將語音轉為文字（ASR），接著由大型語言模型（LLM）處理文字，最後再合成語音輸出（TTS）。這種階梯式的方法往往會產生明顯的「延遲感」，即使用者說完話到 AI 開始回應之間的空檔。相比之下，Chroma 1.0 採用原生語音運作模式，將端到端的「首個標記時間」（TTFT）縮短至 150 毫秒以下。這種近乎即時的反應能力，讓 AI 能夠對插話做出反應，並維持人類語言特有的韻律與語調，擺脫了舊有系統的滯後感。

Chroma 1.0 的核心亮點之一在於其卓越的語音複製技術，僅需短短幾秒的音訊樣本，即可生成極具個人特色的數位聲音。在內部評估中，該模型的說話者相似度得分（SIM）達到 0.817，FlashLabs 指出這一數值比人類語音識別的基準線高出近 11%。這意味著現在無需龐大的數據集或繁瑣的微調過程，就能產出高品質且具備高度辨識度的語音身份，大幅降低了個性化語音生成的門檻。

儘管具備強大的推理能力，Chroma 1.0 卻建立在一個僅約 40 億參數的精簡架構之上。這種高效設計使該模型能廣泛應用於多種場景，特別是對於運算資源有限但要求極致反應速度的環境。開發者可以利用此架構構建更具智慧的系統，而不必擔心龐大模型帶來的硬體負擔與能源消耗。

自主語音代理：打造反應敏捷的個人化或專業型助手。
邊緣端部署：在注重隱私與低延遲的本地裝置上直接運行。
互動式 NPC：讓遊戲中的非玩家角色能進行無腳本且自然的語音交流。
即時翻譯：提供幾乎與語速同步的跨語言溝通工具，實現無縫對話。

目前 FlashLabs 已將 Chroma 1.0 作為開源項目釋出，模型權重已上傳至 Hugging Face，而推理代碼則託管於 GitHub。這種開放存取的策略旨在鼓勵全球研究人員與開發者在此基礎上進行創新，共同開啟「代理化」系統的新紀元。透過讓機器能以人類自然的對話速度與世界互動，Chroma 1.0 正在重新定義人機協作的未來邊界。