こんにちは、今日は北京智谱华章科技有限公司が新たにリリースしたエンドツーエンド音声大モデル、GLM-4-Voiceについて紹介します。この新しいモデルは、人工知能の多模態大模型家族に新たなメンバーを加え、機械と人の間の対話をより自然で流暢なものとしました。
GLM-4-Voiceの特徴
GLM-4-Voiceは、中英文の音声を直接理解し生成する能力を持ち、ユーザーの指令に基づいて音声の感情、語調、語速、方言などの特性を柔軟に調整することができます。また、このモデルは遅延が低く、リアルタイムでの中断をサポートし、対話体験をさらに向上させています。
-
感情表現と共感:異なる感情や語調を模倣し、例えば嬉しさ、悲しみ、怒り、恐れなどの感情で返信することができます。従来のTTSは感情表現が硬直し、声の変化が細かくないという問題がありました。
-
語速調整:同じ会話の中で、話す速さを要求して調整することができます。
-
いつでも中断可能、フレキシブルな指令入力:リアルタイムのユーザー指令に基づいて、音声出力の内容、スタイル、感情を調整し、よりフレキシブルな対話インタラクションをサポートします。
-
多言語、多方言サポート:現在GLM-4-Voiceは中英文音声と中国各地の方言をサポートしており、特に広東語、重慶話、北京語などに優れています。
技術詳細
従来のASR + LLM + TTSの連鎖方案と比較して、エンドツーエンドモデルはオーディオトークン的形式で直接音声をモデルリングし、音声の理解と生成を1つのモデル内で同時に完了させ、連鎖方案の「音声をテキストに変換してから音声に戻す」という中間の情報損失を避け、より高い能力の上限をアンロックします。
GLM-4-Voiceは3つの部分组成で構成されており、以下のような機能を持ちます:
-
GLM-4-Voice-Tokenizer:WhisperのEncoder部分にVector Quantization训练を加え、ASRデータで監督训练を行い、連続的な音声入力を離散的なトークンに変換します。
-
GLM-4-Voice-9B:GLM-4-9Bの基础上で音声モーダルのプリトレインとアライメントを行い、離散化された音声を理解し生成することができます。
-
GLM-4-Voice-Decoder:CosyVoiceのFlow Matchingモデル構造に基づいてトレーニングされたストリーミング推理をサポートする音声デコーダーで、離散化された音声トークンを連続的な音声出力に変換します。
オープンソースの使用
モデルをすぐに起動できるWebデモを提供しており、ユーザーは音声やテキストを入力し、モデルは同時に音声とテキストの返信を提供します。コードレポジトリは以下にあります:
- コードレポジトリ:https://github.com/THUDM/GLM-4-Voice
この新しいGLM-4-Voiceモデルは、エンドツーエンド音声モデリングの新たな可能性を示し、人工知能技術の進歩に貢献します。詳細な技術レポートは後ほど公開される予定です。
智谱技術チームが提供するこのオープンソースプロジェクトを通じて、私たちは人工知能の未来に期待を寄せています。ぜひ、このプロジェクトを活用し、人工知能の力を体験してください。
会社名:株式会社Dolphin AI
事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売
ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。
アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分
電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp