Google’s Soundstorm

効率性: SoundStormは、その前身よりも2桁速く音声を生成し、TPU-v4上で0.5秒で30秒の音声を生成します。
品質と一貫性: 音声品質を維持しながら、声や音響条件の一貫性を高めます。
スケーラビリティ: より長いシーケンスへの音声生成のスケーリングが可能で、高品質の対話セグメントの合成を実証しています。
制御性: トランスクリプトや声のプロンプトを通じて、話される内容、話者の声、話者の切り替えを制御できます。

SoundStorm: 効率的な並列音声生成

SoundStormは、Google Researchによって開発された画期的なモデルで、効率的な非自己回帰音声生成を目的としています。双方向注意機構と信頼性ベースの並列デコーディングを活用し、意味的トークンから高品質の音声を生成し、従来の自己回帰モデルよりも大幅に高速に動作します。

SoundStormは、その速度と音声出力の品質について称賛されています。高い音響一貫性と話者の声の忠実性を維持し、プロンプトありとなしの音声生成シナリオの両方で以前のモデルを上回ります。

SoundStormを使用するには、AudioLMからの意味的トークンを入力し、必要に応じて特定の話者特性のための3秒の声のプロンプトを含め、モデルに高品質の音声を効率的に生成させます。

トレーニングデータのバイアス: モデルはトレーニングデータに存在するバイアスを反映する可能性があり、アクセントや声の特性の多様性に影響を与える可能性があります。
誤用の可能性: 声を模倣する能力は悪用される可能性があり、安全対策と検出方法の継続的研究が必要です。

SoundStormは、音声生成技術の大きな進歩を示し、より速く、より制御された音声生産を約束しながら、AI開発における倫理的配慮にも対応しています。