Data2vec音声認識:预训练Paraformer中国語モデルの突破

この記事は約5分で読めます。

人工知能の音声認識分野で、预训练モデルは認識性能を向上させるための重要な技術となっています。今日は、ModelScope.cn上のData2vec構造に基づくParaformer中国語音声認識モデルを紹介します。AISHELL-2データセットでトレーニングされ、音声認識などのダウンストリームタスクの強力な预训练基盤を提供します。

Data2vec中国語预训练モデルのハイライト

Data2vec中国語预训练モデルのリリースにより、音声認識分野に以下の顕著な利点がもたらされました:

  • ダウンストリームタスクのファインチューニング:AISHELL-2データセットでトレーニングされた中国語预训练モデルを提供し、音声認識などのダウンストリームタスクのファインチューニングに使用できます。
  • 性能とスピードのバランス:AISHELL-1データセットで微調整されたParaformer中国語音声認識モデルを追加し、性能をほぼ変わらずに大幅にスピードを上げました。

リリースノート

機能の充実

  • モデルのエクスポート機能:ONNX形式とTorchScript形式のモデルを一键でエクスポートし、モデルのデプロイメントが簡単になりました。
  • ONNXRuntimeデプロイメント:ModelscopeとFunASRをインストールせずにデプロイメントができ、CPUの実測で推論速度が約3倍向上しました。
  • gRPCサービス機能:Modelscope推論パイプラインのサービスデプロイメントをサポートし、ONNXRuntimeのサービスデプロイメントも可能です。
  • 長音声モデルの時間スタンプの最適化:Paraformer-large長音声モデルの時間スタンプを最適化し、badcase時間スタンプ予測の正確性を大幅に向上させました。
  • モデルの組み合わせ機能:任意のVADモデル、ASRモデル、句読点モデルを自由に組み合わせて推論できる機能を追加しました。
  • サンプリングレートの自適応機能:任意の入力サンプリングレートの音声が自動的にモデルのサンプリングレートにマッチします。また、mp3、flac、ogg、opusなどの多くの音声フォーマットをサポートしました。

新モデルのリリース

  • Paraformer-largeホットワードモデル:ホットワードのカスタム化を実現し、ホットワードのリカールを向上させます。
  • MFCCAマルチチャネルマルチスピーカー認識モデル:多フレームクロスチャネル注意メカニズムに基づくマルチチャネル音声認識モデル。
  • 8k音声エンドポイント検出VADモデル:ストリーミング入力をサポートし、最小で10msの音声入力ストリームに対応します。
  • UniASRストリーミングオフライン一体化モデル:16k UniASR中国語、フランス語、ドイツ語、ベトナム語、ペルシャ語などのモデルをリリース。
  • Data2vec構造の無監督预训练Paraformerモデル:Data2vecの無監督预训练初期値モデルを使用し、AISHELL-1データでParaformerモデルをファインチューニングします。

プロジェクト紹介

Data2vecは新しいタイプの预训练フレームワークで、音声、ビジョン、自然言語処理など異なるモーダルに適用でき、音声認識タスクで優れた認識率を実現しています。このプロジェクトで提供される预训练モデルは、ビッグデータでトレーニングされた汎用分野認識モデルであり、開発者はこのモデルを基にModelScopeのファインチューニング機能やこのプロジェクトに対応するGithubコードリポジトリFunASRを利用してモデルの分野カスタマイズを進めることができます。

使用と独自モデルのトレーニング

Notebookでの開発

ModelScopeはNotebook環境を提供しており、ユーザーはModelScopeアカウントにログイン後、Notebook内でモデルの呼び出しと開発を行うことができます。

ModelScopeによる推論

ModelScopeはwavファイルパス、wavファイルurl、wavバイナリデータ、解析済みのaudio音声など、多种の音声フォーマットの推論をサポートしています。

ModelScopeによるファインチューニング

ユーザーはModelScope上のデータセットやプライベートデータセットに基づいてファインチューニングを実施し、特定のアプリケーションシーンに適したモデルを作成できます。

ローカルマシンでの開発

ModelScope上のデータセットとプライベートデータセットに基づくカスタムファインチューニングと推論をサポートし、Notebookでの開発と同じ使用方法です。FunASRフレームワークは魔搭コミュニティがオープンソースにした産業級の音声認識モデルのtraining & finetuningをサポートし、研究者と開発者が音声認識モデルの研究と生産をより簡単に行えるようにしています。

Data2vec音声認識モデルのリリースは、中国語音声認識分野に新しい技術選択肢を提供し、高精度の音声転写が必要なアプリケーションシーンに強力なサポートを提供します。技術の進歩に伴い、Data2vecが未来の音声認識分野でさらに大きな役割を果たすと信じています。


会社名:株式会社Dolphin AI

Advanced Speech Interaction Solutions | Dolphin AI
Dolphin AIは音声認識、発音評価、音声合成APIなど20以上の言語をカバーする最先端の音声ソリューションを提供します。今すぐAPIをお試しください。

事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売

ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。

アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分

電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp

タイトルとURLをコピーしました