音声合成とボイスクローン分野において、OuteTTS 1.0のリリースは技術的な大きな進歩を表しています。このモデルはそのコンパクトな体积にもかかわらず、強力な機能、更高的正確性、およびユーザーに優しいエクスペリエンスを提供しています。本記事では、OuteTTS 1.0の主要なアップデート、使用上のアドバイス、およびモデル仕様について詳しく説明します。
OuteTTS 1.0:主要なアップデート
OuteTTS 1.0は音声合成とボイスクローンにおいて显著な改善をもたらしています。以下の主要なアップデート内容です:
1. プロンプトの改善と依存関係の削除
- 自動単語アライメント:モデルは现在、内部で単語アライメントを実行しています。プレプロセスは不要で、モデルが残りの処理を行います。
- ネイティブマルチリンガルテキストサポート:多种言語のネイティブテキストを直接サポートし、ローマ字化は不要です。
- 強化されたメタデータ統合:更新されたプロンプトシステムは、グローバルレベルと単語レベルの両方で追加のメタデータ(時間、エネルギー、スペクトルセンタロイド、ピッチ)を統合し、話者の流れと合成品質を向上させています。
- オーディオコードブックの特殊トークン:c1(コードブック1)とc2(コードブック2)の特殊トークンが追加されました。
2. 新しいオーディオエンコーダーモデル
- DACエンコーダー:ibm-research/DAC.speech.v1.0のDACオーディオエンコーダーを統合し、2つのコードブックを使用して高品質なオーディオを再構築します。
- パフォーマンスのトレードオフ:向上したオーディオ忠実度により、毎秒生成されるトークン数が75から150に増加しました。このトレードオフは、特にマルチリンガルアプリケーションにおいて品質を優先します。
3. ボイスクローン
- ワンショットボイスクローン:ワンショットクローンを実現し、通常は約10秒のリファレンスオーディオ只需要で正確な音声表現が可能です。
- 向上した正確性:新しいエンコーダーと追加のトレーニングメタデータにより、ボイスクローンはより自然で正確になりました。
4. 自動テキストアライメントと数値サポート
- 自動テキストアライメント:日本語や中国語など、明確な境界がない言語でも、単語レベルで原始テキストをアライメントします。
- 直接数値入力:ビルトインのマルチリンガル数値サポートにより、テキスト変換なしでプロンプトに直接数値を使用できます。
5. マルチリンガル能力
- サポートされている言語:OuteTTSは、トレーニングデータの露出度に基づいて、多种言語で異なる習熟度レベルを提供しています。
使用上のアドバイス
OuteTTS 1.0を最佳の状態で使用するためには、以下の使用上のアドバイスを参照してください:
スピーカーリファレンス
モデルはスピーカーリファレンスと共に使用することを想定しています。リファレンスがない場合、モデルはランダムな声の特徴を生成し、通常は出力品質が低下します。モデルはリファレンススピーカーの感情、スタイル、アクセントを継承します。
マルチリンガルアプリケーション
使用予定の言語でスピーカープロファイルを作成することをお勧めします。これにより、その特定の言語においてベストな結果を得ることができます(トーン、アクセント、言語的特徴を含む)。
最適なオーディオ長さ
- 最良のパフォーマンス:約42秒のオーディオ(約8,192トークン)を単一実行で生成します。このウィンドウの制限に近づかないことをお勧めします。通常、7,000トークンまでが最佳の結果をもたらします。
- スピーカーリファレンスによるコンテキスト削減:スピーカーリファレンスが10秒の場合、有効なコンテキストは約32秒に削減されます。
温度設定のアドバイス
テストによると、温度設定を0.4にすることが正確さの理想的なスタートポイントです(以下のサンプリング設定を使用する場合)。ただし、一部のボイスリファレンスでは、表現力を高めるためにより高い温度設定や、ボイスレプリケーションをより正確に行うために若干低い温度設定が有利な場合があります。
スピーカーエンコードの確認
クローンされたボイスの品質が不十分な場合、エンコードされたスピーカーサンプルを確認してください。DACオーディオ再構成モデルはロス圧縮であり、クリッピング、過度の音量、または異常な声の特徴を持つサンプルは、出力品質に影響を与えるエンコード上の問題を引き起こす可能性があります。
サンプリング設定
このTTSモデルで最佳の結果を得るためには、以下のサンプリング設定を使用することをお勧めします:
パラメータ | 値 |
---|---|
温度 | 0.4 |
繰り返しペナルティ | 1.1 |
繰り返し範囲 | 64 |
Top-k | 40 |
Top-p | 0.9 |
Min-p | 0.05 |
モデル仕様
- トレーニングデータ:約60,000時間のオーディオでトレーニングされています
- コンテキスト長さ:最大8,192トークンのコンテキストウィンドウをサポート
トレーニングパラメータ
事前トレーニング
- オプティマイザ:AdamW
- バッチサイズ:100万トークン
- 最大学習率:3e-4
- 最小学習率:3e-5
- コンテキスト長さ:8192
微調整
- オプティマイザ:AdamW
- 最大学習率:1e-5
- 最小学習率:5e-6
- データ:10,000の多様で高品質なサンプル
ライセンス情報
- 初期のLlama3.2コンポーネント:Llama 3.2コミュニティライセンス契約
- 私たちの持続的な事前トレーニング、微調整、および追加コンポーネント:CC-BY-NC-SA-4.0
倫理的使用ガイドライン
このテキストから音声モデルは、アクセシビリティ、創造性、およびコミュニケーションを向上させる合法的なアプリケーションを目的としています。禁止されている使用には、同意なしのなりすまし、意図的に誤解を招くコンテンツの作成、有害または嫌がらせ的な素材の生成、適切な開示なしの合成オーディオの配布、許可なしのボイスクローン、および適用可能な法律、規則、または著作権に違反する使用が含まれます。
OuteTTS 1.0のリリースは、音声合成とボイスクローン分野に显著な進歩をもたらし、より強力で、より正確で、ユーザーに優しいエクスペリエンスを提供しています。技術の絶え間ない発展に伴い、OuteTTSがもっともろこしのアプリケーションシナリオでそのポテンシャルを発揮することを期待できます。
会社名:株式会社Dolphin AI
事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売
ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。
アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分
電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp