人工知能の分野では、自然言語処理と音声認識技術の発展が常に注目を集めています。最近、アマゾンの研究者たちが革新的なマルチモーダル人工知能フレームワーク——SpeechVerseを発表しました。このフレームワークはマルチタスク学習と指令微調整を組み合わせており、大型言語モデル(LLM)が自然言語指令を通じて各种の音声処理タスクを実行し、見たことのないタスクで強力なゼロショット汎化能力を発揮します。
論文紹介
大型言語モデル(LLM)は自然言語タスクと指令に従うことにおいて優れたパフォーマンスを発揮しますが、画像や音声などの非テキストデータを処理する際には課題に直面します。音声理解能力を組み合わせることで、人間と機械の間のインタラクションを大幅に改善することができます。現在の方法は、自動音声認識(ASR)の後にLLM処理を接続するものが多く、非テキストの手がかりを無視しています。有望なアプローチの1つは、テキストLLMと音声エンコーダーを1つのトレーニング設定で統合することです。これにより、音声とテキストをより包括的に理解することができ、純粋なテキストベースの方法と比べて、より豊かな理解が期待できます。特に、指令に従うマルチモーダルオーディオ言語モデルは、そのクロスタスク汎化能力により注目を集めています。SpeechT5、Whisper、VIOLA、SpeechGPT、SLMなどの先行研究はポテンシャルを示しましたが、これらの研究は限られた音声タスクの範囲に制限されていました。
マルチタスク学習とは、異なるタスク間の共有表現を利用することで汎化能力和効率を高めることを意味します。T5やSpeechNetなどのモデルは、このアプローチをテキストと音声タスクに適用し、顕著な成果を収めています。しかし、オーディオを統合したマルチモーダル大型言語モデルはそれほど注目されていませんでした。SpeechGPTやQwen-Audioなどの最近の研究は、このギャップを埋めるために努力し、各种のオーディオタスクでの能力を示しました。SpeechVerseはマルチタスク学習と指令微調整を革新的に組み合わせ、オーディオ-テキストタスクで卓越したパフォーマンスを実現しました。
SpeechVerseフレームワーク
アマゾンの研究者が発表したSpeechVerseは、各種の音声タスクを処理するための監督指令微調整を採用したマルチタスクフレームワークです。SpeechGPTとは異なり、SpeechVerseは、純粋なテキスト出力タスクを完了するために、事前トレーニングされた音声モデルの連続表現を利用します。階層的なマークアップと大規模なオーディオエンコーダーを必要とするQwen-Audioと比較して、SpeechVerseはマルチタスク学習と微調整を統合しており、タスク固有のマークアップを必要とせずに、自然言語指令を通じて見たことのないタスクに汎化することができます。
SpeechVerseのマルチモーダルモデルアーキテクチャには、オーディオエンコーダー、畳み込みダウンサンプリングモジュール、そしてLLMが含まれています。オーディオエンコーダーは、事前トレーニングされたモデルを使用して音声から意味論的特徴を抽出し、統一された表現を生成します。ダウンサンプリングモジュールはオーディオ特徴を調整し、LLMトークンシーケンスと互換性を持たせるために使用されます。LLMはテキストとオーディオの両方の入力を処理し、ダウンサンプリングされたオーディオ特徴とトークン埋め込みを結合します。パラメーター効率の高い微調整のカリキュラム学習がトレーニングプロセスを最適化し、事前トレーニングされたコンポーネントを凍結することで、各種の音声タスクを効果的に処理することができます。
実験評価
SpeechVerseフレームワークを使用して評価されたエンドツーエンドトレーニングの統合された音声と言語モデル(E2E-SLM)は、異なるドメインとデータセットにまたがる11のタスクをカバーしています。ASRベンチマークテストはSpeechVerseの核心となる音声理解能力の有効性を明らかにし、タスク固有の事前トレーニングされたASRモデルが良好な結果を示しました。SLUタスクについては、エンドツーエンドトレーニングされたモデルがほとんどの場合、カスケードパイプラインよりも優れており、SpeechVerseの有効性を証明しています。SpeechVerseモデルはASR、ST、IC、SF、ERなどの各種タスクにおいても、最先端のモデルに相当するか、それ以上のパフォーマンスを発揮しています。
結論
以上のことから、SpeechVerseはアマゾンの研究者たちが発表したマルチモーダルフレームワークで、LLMが自然言語指令を通じて各種の音声処理タスクを実行できるようにします。SpeechVerseは監督指令微調整を行い、事前トレーニングされた音声とテキストモデルからの表現を組み合わせることで、見たことのないタスクで強力なゼロショット汎化能力を発揮します。従来のベースラインとの比較分析は、SpeechVerseが11のタスクのうち9つのタスクで優れたパフォーマンスを発揮することを示しており、その強力な指令に従う能力を示しています。このモデルはドメイン外のデータセット、見たことのないプロンプト、新しいタスクにおいても弾力性を発揮し、提案されたトレーニングメソッドが汎化能力を促進する効果を強調しています。
論文ダウンロード
SpeechVerseを通じて、マルチモーダル人工知能が音声処理タスクにおける大きな可能性を見据えています。この革新はモデルの汎化能力を向上させるだけでなく、未来の人間と機械のインタラクションに新たな可能性を提供しています。技術が絶えず発展する中で、SpeechVerseのような革新的なモデルがさらに人工知能分野の発展を推進することを期待できます。
会社名:株式会社Dolphin AI
事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売
ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。
アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分
電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp