FlashLabs 发布 Chroma 1.0：开源实时语音 AI 的里程碑

19:58, 22 一月

编辑者： Veronika Radoslavskaya

iframe { display: none; }

应用人工智能研究实验室 FlashLabs 近日正式宣布推出 Chroma 1.0，这标志着人类与人工智能通过语音进行交互的方式发生了重大变革。Chroma 被定义为全球首款开源的端到端（E2E）语音对语音模型，其核心设计理念是以“人类速度”运行，旨在彻底消除传统语音系统中固有的技术延迟。通过摒弃碎片化的处理流程，该模型能够实现流畅且自然的对话体验，并支持情感细微差别和即时轮替对话等复杂交互元素。

目前大多数现有的语音助手都依赖于多步处理模式：首先将语音转换为文本（ASR），接着利用语言模型（LLM）处理该文本，最后再合成语音响应（TTS）。这种级联式的方法往往会产生明显的“延迟”，即用户结束说话与 AI 开始回复之间的时间差。相比之下，Chroma 1.0 采用原生语音架构运行，实现了低于 150 毫秒的端到端“首个 Token 时间”（TTFT）。

这种近乎瞬时的响应能力使 AI 能够敏锐地对插话做出反应，并保持人类语言的自然韵律——包括节奏和语调——而不会出现旧系统中常见的滞后感。这种技术突破不仅提升了对话的连贯性，还让机器沟通在听感上更接近真人之间的互动，极大地增强了用户体验的真实感。

Chroma 1.0 的另一项核心功能是其先进的语音克隆技术，仅需短短几秒钟的音频样本即可创建一个个性化的数字声音。在内部评估中，该模型的说话人相似度得分（SIM）达到了 0.817。FlashLabs 指出，这一成绩比人类语音识别的基准线高出近 11%。这意味着，现在无需海量数据集或繁琐的微调周期，即可生成高质量且具有高辨识度的语音身份。

尽管具备复杂的推理能力，Chroma 1.0 却建立在仅约 40 亿个参数的紧凑架构之上。这种高效的架构设计使该模型非常适合各种实际应用场景，尤其是在对性能和资源占用有严格要求的环境下。其广泛的应用潜力包括：

自主语音代理：为个人或专业领域打造响应迅速的智能化助手。
边缘部署：在注重低延迟和数据隐私的设备上本地运行模型。
交互式 NPC：使视频游戏中的非玩家角色能够进行无脚本的实时语音对话。
实时翻译：驱动能够几乎与说话速度同步进行翻译的语言工具。

FlashLabs 已将 Chroma 1.0 作为开源项目公开发布，其模型权重已在 Hugging Face 平台上架，而推理代码则托管在 GitHub 上。这种开放获取的策略旨在鼓励全球的研究人员和开发人员在这一实时智能技术的基础上进行创新，共同开启一个以自然人类对话速度运行的“智能体”系统新时代。