GLM-4-Voice：智谱が新たにリリースしたエンドツーエンド音声大モデル、オープンソース公開

こんにちは、今日は北京智谱华章科技有限公司が新たにリリースしたエンドツーエンド音声大モデル、GLM-4-Voiceについて紹介します。この新しいモデルは、人工知能の多模態大模型家族に新たなメンバーを加え、機械と人の間の対話をより自然で流暢なものとしました。

GLM-4-Voiceの特徴
技術詳細
オープンソースの使用

GLM-4-Voiceの特徴

GLM-4-Voiceは、中英文の音声を直接理解し生成する能力を持ち、ユーザーの指令に基づいて音声の感情、語調、語速、方言などの特性を柔軟に調整することができます。また、このモデルは遅延が低く、リアルタイムでの中断をサポートし、対話体験をさらに向上させています。

感情表現と共感：異なる感情や語調を模倣し、例えば嬉しさ、悲しみ、怒り、恐れなどの感情で返信することができます。従来のTTSは感情表現が硬直し、声の変化が細かくないという問題がありました。
語速調整：同じ会話の中で、話す速さを要求して調整することができます。
いつでも中断可能、フレキシブルな指令入力：リアルタイムのユーザー指令に基づいて、音声出力の内容、スタイル、感情を調整し、よりフレキシブルな対話インタラクションをサポートします。
多言語、多方言サポート：現在GLM-4-Voiceは中英文音声と中国各地の方言をサポートしており、特に広東語、重慶話、北京語などに優れています。

技術詳細

従来のASR + LLM + TTSの連鎖方案と比較して、エンドツーエンドモデルはオーディオトークン的形式で直接音声をモデルリングし、音声の理解と生成を1つのモデル内で同時に完了させ、連鎖方案の「音声をテキストに変換してから音声に戻す」という中間の情報損失を避け、より高い能力の上限をアンロックします。

GLM-4-Voiceは3つの部分组成で構成されており、以下のような機能を持ちます：

GLM-4-Voice-Tokenizer：WhisperのEncoder部分にVector Quantization训练を加え、ASRデータで監督训练を行い、連続的な音声入力を離散的なトークンに変換します。
GLM-4-Voice-9B：GLM-4-9Bの基础上で音声モーダルのプリトレインとアライメントを行い、離散化された音声を理解し生成することができます。
GLM-4-Voice-Decoder：CosyVoiceのFlow Matchingモデル構造に基づいてトレーニングされたストリーミング推理をサポートする音声デコーダーで、離散化された音声トークンを連続的な音声出力に変換します。

オープンソースの使用

モデルをすぐに起動できるWebデモを提供しており、ユーザーは音声やテキストを入力し、モデルは同時に音声とテキストの返信を提供します。コードレポジトリは以下にあります：

コードレポジトリ：https://github.com/THUDM/GLM-4-Voice

この新しいGLM-4-Voiceモデルは、エンドツーエンド音声モデリングの新たな可能性を示し、人工知能技術の進歩に貢献します。詳細な技術レポートは後ほど公開される予定です。

智谱技術チームが提供するこのオープンソースプロジェクトを通じて、私たちは人工知能の未来に期待を寄せています。ぜひ、このプロジェクトを活用し、人工知能の力を体験してください。

会社名：株式会社Dolphin AI

Advanced Speech Interaction Solutions | Dolphin AI

Dolphin AIは音声認識、発音評価、音声合成APIなど20以上の言語をカバーする最先端の音声ソリューションを提供します。今すぐAPIをお試しください。

事業内容：
Dolphin SOE 英語発音評価サービスの開発＆販売
Dolphin Voice 音声対話SaaS Platformの開発＆販売

ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。

アクセス情報：〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線池袋駅東口（30番出口）より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線池袋駅東口（30番出口）より徒歩4分
西武池袋線池袋駅東口（30番出口）より徒歩4分
東武東上線池袋駅東口（30番出口）より徒歩4分

電話番号：(+81) 03-6775-4523
メールアドレス：contact@dolphin-ai.jp