emotion2vec+large语音情感识别基座模型large模型

この記事は約8分で読めます。

こんにちは、今日は「emotion2vec+large语音情感识别基座模型large模型」についてブログを書いていきます。

emotion2vec+largeモデルとは?

「emotion2vec+large」は、ModelScope.cnで提供されている音声情感認識の基座モデルです。このモデルは、音声データから感情を識別する能力を持ち、多言語や録音環境の違いを克服し、汎用性とロバストさを兼ね備えた感情認識を実現することを目指しています。

モデルの詳細

emotion2vec+(emotion2vec_plus)シリーズは、GitHubのemotion2vecリポジトリに公開されており、Hugging Faceでも公開されています。このシリーズは、フィンチューニングデータ量に応じてseed、base、largeの3つのサイズのモデルが用意されており、特にlargeモデルは42526時間のデータで訓練されています。

サポートされている感情の分類は以下の通りです:

  • 0: angry
  • 1: disgusted
  • 2: fearful
  • 3: happy
  • 4: neutral
  • 5: other
  • 6: sad
  • 7: surprised
  • 8: unknown

データのイテレーション

emotion2vec+シリーズは、前バージョンのデータを基にイテレーションされています。seedモデルはEmoBoxの学術的音声情感データでフィンチューニングされています。baseモデルは大規模な擬似ラベルデータでフィンチューニングされ、largeモデルも同様のデータでフィンチューニングされています。

インストール環境

以下のように、pipコマンドを使用して必要な環境をインストールできます。

pip install -U funasr modelscope

使い方

このモデルは、16kHzの音声データを受け取り、以下のようにモデルスコープやFunASRを使用して推論を行うことができます。

ModelScopeを使用した推論

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

inference_pipeline = pipeline(
    task=Tasks.emotion_recognition,
    model="iic/emotion2vec_plus_large")

rec_result = inference_pipeline('https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav', granularity="utterance", extract_embedding=False)
print(rec_result)

FunASRを使用した推論

from funasr import AutoModel

model = AutoModel(model="iic/emotion2vec_plus_large")

wav_file = f"{model.model_path}/example/test.wav"
res = model.generate(wav_file, output_dir="./outputs", granularity="utterance", extract_embedding=False)
print(res)

モデルは自動的にダウンロードされます。また、wav.scp(kaldiスタイル)形式の入力ファイルリストもサポートしています。

出力

出力は感情表現ベクトルで、numpy形式(np.load()でロード可能)でoutput_dirに保存されます。

結び

「emotion2vec+large」は、音声から感情を高精度で識別する優れたモデルであり、多言語対応やロバストな性能を誇っています。このブログを通じて、emotion2vec+largeモデルの魅力について少し理解できたでしょうか?興味があれば、ModelScope.cnを訪れて詳細を確認してみてください。

この技術は、自動字幕作成、音声コンテンツ分析、セキュリティ強化など、多岐にわたる分野で応用が期待されます。技術の進歩は私たちの日常生活にも多大な影響を与えており、emotion2vec+largeのような革新的な技術は、私たちの仕事と生活をより便利で効率的なものに変えていくでしょう。


こんにちは、今日は「emotion2vec+large语音情感识别基座模型large模型」についてブログを書いていきます。

emotion2vec+largeモデルとは?

「emotion2vec+large」は、ModelScope.cnで提供されている音声情感認識の基座モデルです。このモデルは、音声データから感情を識別する能力を持ち、多言語や録音環境の違いを克服し、汎用性とロバストさを兼ね備えた感情認識を実現することを目指しています。

モデルの詳細

emotion2vec+(emotion2vec_plus)シリーズは、GitHubのemotion2vecリポジトリに公開されており、Hugging Faceでも公開されています。このシリーズは、フィンチューニングデータ量に応じてseed、base、largeの3つのサイズのモデルが用意されており、特にlargeモデルは42526時間のデータで訓練されています。

サポートされている感情の分類は以下の通りです:

  • 0: angry
  • 1: disgusted
  • 2: fearful
  • 3: happy
  • 4: neutral
  • 5: other
  • 6: sad
  • 7: surprised
  • 8: unknown

データのイテレーション

emotion2vec+シリーズは、前バージョンのデータを基にイテレーションされています。seedモデルはEmoBoxの学術的音声情感データでフィンチューニングされています。baseモデルは大規模な擬似ラベルデータでフィンチューニングされ、largeモデルも同様のデータでフィンチューニングされています。

インストール環境

以下のように、pipコマンドを使用して必要な環境をインストールできます。

pip install -U funasr modelscope

使い方

このモデルは、16kHzの音声データを受け取り、以下のようにモデルスコープやFunASRを使用して推論を行うことができます。

ModelScopeを使用した推論

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

inference_pipeline = pipeline(
    task=Tasks.emotion_recognition,
    model="iic/emotion2vec_plus_large")

rec_result = inference_pipeline('https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav', granularity="utterance", extract_embedding=False)
print(rec_result)

FunASRを使用した推論

from funasr import AutoModel

model = AutoModel(model="iic/emotion2vec_plus_large")

wav_file = f"{model.model_path}/example/test.wav"
res = model.generate(wav_file, output_dir="./outputs", granularity="utterance", extract_embedding=False)
print(res)

モデルは自動的にダウンロードされます。また、wav.scp(kaldiスタイル)形式の入力ファイルリストもサポートしています。

出力

出力は感情表現ベクトルで、numpy形式(np.load()でロード可能)でoutput_dirに保存されます。

結び

「emotion2vec+large」は、音声から感情を高精度で識別する優れたモデルであり、多言語対応やロバストな性能を誇っています。このブログを通じて、emotion2vec+largeモデルの魅力について少し理解できたでしょうか?興味があれば、ModelScope.cnを訪れて詳細を確認してみてください。

この技術は、自動字幕作成、音声コンテンツ分析、セキュリティ強化など、多岐にわたる分野で応用が期待されます。技術の進歩は私たちの日常生活にも多大な影響を与えており、emotion2vec+largeのような革新的な技術は、私たちの仕事と生活をより便利で効率的なものに変えていくでしょう。

会社名:株式会社Dolphin AI

Advanced Speech Interaction Solutions | Dolphin AI
Dolphin AIは音声認識、発音評価、音声合成APIなど20以上の言語をカバーする最先端の音声ソリューションを提供します。今すぐAPIをお試しください。

事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売

ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。

アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分

電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp

タイトルとURLをコピーしました