META’s new text-to-speech for 1,100+ languages

大規模多言語音声: 音声技術を1,100以上の言語に拡張する

大規模多言語音声（MMS）プロジェクトは、音声技術において大きな飛躍を表しており、サポートする言語を約100言語から1,100以上の言語に拡張しています。このイニシアチブは、情報をより多くの人々にアクセス可能にすることを目的としており、特に音声による情報アクセスに依存する人々を対象として、機械に複数の言語での音声認識と生成能力を備えることを目指しています。

主な特徴

1,107言語に対応する音声テキスト変換とテキスト音声変換をサポート。
4,000以上の言語に対応する言語識別を提供。
自己教師あり学習と新しいデータセットを使用してモデルをトレーニング。
多言語音声認識において既存のモデルを上回る性能を発揮。

主な使用例

音声による情報アクセスに依存する個人のアクセシビリティを向上。
技術で使用可能にすることで絶滅危惧言語を保存。
メッセージングサービスからVR/AR技術まで、さまざまなアプリケーションでより包括的なコミュニケーションを可能に。

使用方法

GitHubでモデルとコードにアクセスし、研究開発目的で利用。
新しい音声認識と合成モデルのトレーニングにデータセットを活用。
アプリケーションに技術を実装し、多言語音声機能をサポート。

ユーザーエクスペリエンス

MMSプロジェクトは、ベンチマークデータセットに対する評価で有望な結果を示しており、既存のモデルと比較して言語カバレッジと性能が大幅に向上していることが示されています。モデルは、性別バイアスとドメイン固有のバイアスを最小限に抑えるように設計されており、さまざまなユーザーグループにおいて公平な性能を確保しています。