FlashLabsがChroma 1.0を発表：オープンソースのリアルタイム音声AIにおける画期的な進歩

19:58, 22 1月

編集者： Veronika Radoslavskaya

応用AI研究ラボのFlashLabsは、人間と人工知能の音声対話におけるパラダイムシフトを象徴する「Chroma 1.0」のリリースを発表しました。Chromaは、世界初のオープンソースかつエンドツーエンド（E2E）の音声対音声モデルとして設計されており、従来の音声システムが抱えていた技術的な遅延を解消し、「人間と同等の速度」でのインタラクションを実現しています。このモデルは、断片的な処理パイプラインを排除することで、感情の機微や即座のターンテーキング（発話交代）を伴う、極めて自然で流暢な会話を可能にします。

既存の音声アシスタントの多くは、音声をテキストに変換するASR、そのテキストを処理する言語モデル、そして最後に音声を合成するTTSという、複数のステップを組み合わせた「カスケード方式」を採用しています。この手法では、ユーザーが話し終えてからAIが応答を開始するまでに、どうしても無視できない「レイテンシ（遅延）」が生じてしまいます。Chroma 1.0はこの課題に対し、音声ネイティブなアーキテクチャを採用することで、根本的な解決を図っています。

Chroma 1.0は、最初のトークンが生成されるまでの時間（TTFT）において150ミリ秒未満という驚異的な数値を達成しました。このほぼ瞬時のレスポンス性能により、AIは会話の途中で遮られても即座に反応することができ、従来のシステムでは困難だった人間らしい抑揚やリズム、すなわちプロソディを損なうことなく対話を継続できます。これにより、機械的な違和感のない、より人間味のあるコミュニケーションが実現しました。

また、Chroma 1.0の特筆すべき機能として、高度な音声クローニング能力が挙げられます。わずか数秒間の音声サンプルを提供するだけで、特定の個人の声を忠実に再現したデジタルボイスを生成することが可能です。内部評価の結果、このモデルは話者の類似性スコア（SIM）で0.817を記録しました。これはFlashLabsによれば、音声認識における人間の基準値を約11%も上回る精度であり、膨大なデータセットや複雑な微調整を必要としない新しい音声合成の形を提示しています。

高度な推論能力と表現力を備えながらも、Chroma 1.0は約40億パラメータという非常にコンパクトなアーキテクチャで構築されています。この優れた効率性により、クラウド環境だけでなく、多様なデバイスやシナリオでの活用が期待されています。特に、プライバシー保護や低遅延が求められる環境において、その真価を発揮する設計となっています。具体的な活用例は以下の通りです。

自律型音声エージェント：個人向けアシスタントやプロフェッショナルな業務支援ツールの構築。
エッジデバイスへの展開：データプライバシーを維持しつつ、ローカル環境でリアルタイム動作を実現。
インタラクティブなNPC：ビデオゲーム内のキャラクターが、台本に依存しない自由な音声対話を提供。
リアルタイム翻訳：発話とほぼ同時に翻訳を行う、次世代のコミュニケーション支援ツールの開発。

FlashLabsは、Chroma 1.0をオープンソースプロジェクトとして公開し、モデルの重みをHugging Faceで、推論コードをGitHubでそれぞれ提供しています。このオープンアクセスのアプローチは、世界中の開発者や研究者がこのリアルタイム知能を基盤として、さらなる革新を生み出すことを目的としています。自然な会話スピードで動作する「エージェンティック」なシステムの普及により、AIとの共生は新たな段階へと進むことになるでしょう。

FlashLabs