Moonshine：リソース制約デバイス向けのオープンソース音声認識モデル

音声認識技術は、AI分野の中でも特に重要な位置を占めており、リアルタイムの音声からテキストへの変換を提供します。最近、リソース制約デバイス向けに最適化されたオープンソース音声認識モデルであるMoonshineが登場し、話題を集めています。このブログでは、Moonshineの特長とその応用について紹介します。

Moonshineの概要
技術原理
主要機能
応用シーン
早速使ってみる
結語

Moonshineの概要

Moonshineは、複数の標準データセットでOpenAIのWhisperモデルを上回る単語エラー率を示す高性能な音声認識モデルです。計算リソースの需要はオーディオの長さに比例し、短いオーディオの処理速度が大幅に向上します。これは、即時対応が必要なアプリケーションシーン、例えばライブトランスクリプトや音声コマンド認識に適しています。

公式サイトアドレス： https://petewarden.com/2024/10/21/introducing-moonshine-the-new-state-of-the-art-for-speech-to-text
コードアドレス： https://github.com/usefulsensors/moonshine
論文アドレス： https://arxiv.org/abs/2410.15608

技術原理

エンコーダー-デコーダーアーキテクチャ： Moonshineはトランスフォーマーモデルに基づき、エンコーダーで音声信号を処理し、デコーダーでテキスト出力を生成します。このアーキテクチャは音声信号内の長期依存関係を効果的に捉え、認識精度を高めます。
ローテーション位置埋め込み（RoPE）： Moonshineは、伝統的な絶対位置埋め込みとは異なり、RoPEを用いて序列内の要素の位置関係を捉えます。これにより、モデルは音声信号の時間構造をよりよく理解し、性能を向上させます。
可変長処理： Moonshineのエンコーダーは、異なる長さの音声フラグメントをゼロパディングなしで処理できます。これにより、不要な計算コストを削減し、特に短いオーディオの処理効率を高めます。
効率的な計算： 入力オーディオの長さに比例した計算リソースを必要とし、固定長処理モデルに比べて短いオーディオの処理速度が速くなります。
大規模トレーニング： Moonshineは公開ASRデータセットと内部データでトレーニングされ、高度なデータ増強と前処理技術を用いることで、モデルの汎化能力を高めます。

主要機能

リアルタイムトランスクリプト： Moonshineは音声をリアルタイムにテキストに変換し、会議や講演などの現場イベントの効率的なトランスクリプトサービスを提供します。
音声コマンド処理： スマートデバイスやウェアラブルデバイスに適しており、ユーザーの音声コマンドを迅速に認識して応答します。
低遅延： デバイスエンドアプリケーション向けに最適化され、最小限の遅延で正確な音声認識結果を提供します。
リソース効率： リソース制約環境向けに設計されており、ARMプロセッサなどの低コストハードウェア上で動作します。
高正確率： 標準データセットでのテスト結果により、Moonshineの単語エラー率（WER）はWhisperモデル以下を示し、信頼性の高い音声認識サービスを提供します。

応用シーン

スマート音声アシスタント： 音声アシスタントに効率的な音声認識機能を提供し、ユーザーの指令を迅速かつ正確に理解し、応答します。
会議トランスクリプト： Moonshineは会議での発言をリアルタイムにテキストに変換し、会議記録の効率と正確性を高め、情報の整理と共有を容易にします。
音声制御デバイス： スマートホームデバイスやIoTデバイスに広く適用され、音声コマンドによる制御を実現します。
モバイルアプリケーション： スマートフォンなどのモバイルデバイス上で動作し、音声入力や音声検索などの機能を提供します。

早速使ってみる

Moonshineの使い方サンプルを以下に示します。

1. 仮想環境の作成

まず、uv Python環境管理をインストールします。

# macOSとLinux用
curl -LsSf https://astral.sh/uv/install.sh | sh

# Windows用
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

# pip用
pip install uv

仮想環境を作成してアクティベートします。

uv venv env_moonshine
source env_moonshine/bin/activate

2. Moonshineパッケージのインストール

Moonshineの推論コードはKerasで書かれており、Torch、TensorFlow、JAXバックエンドをサポートしています。Torchバックエンドをインストールする例を示します。

uv pip install useful-moonshine@git+https://github.com/usefulsensors/moonshine.git
export KERAS_BACKEND=torch

TensorFlowバックエンドを使用する場合：

uv pip install useful-moonshine(tensorflow)@git+https://github.com/usefulsensors/moonshine.git
export KERAS_BACKEND=tensorflow

JAXバックエンドを使用する場合：

uv pip install useful-moonshine(jax)@git+https://github.com/usefulsensors/moonshine.git
export KERAS_BACKEND=jax

3. Moonshineのテスト

.transcribe関数を使用してサンプルオーディオファイルをトランスクリプトします。

import moonshine
print(moonshine.transcribe(moonshine.ASSETS_DIR / 'beckett.wav', 'moonshine/tiny'))

ここでは、1つ目のパラメーターがオーディオファイルのパス、2つ目のパラメーターがMoonshineモデル名です。現在利用可能なモデルはmoonshine/tinyとmoonshine/baseです。

結語

Moonshineは、リソース制約デバイスでのリアルタイム音声認識において大きなポテンシャルを示す革新的な音声認識モデルです。その効率的な計算能力、低遅延、高正確率、豊富な機能により、多種多様なシーンに適用でき、音声認識技術の発展と普及に新しいアプローチと解決策を提供します。技術の絶え間ない進歩と最適化に伴い、Moonshineは未来の音声対話分野でより重要な役割を果たすものと信じています。

会社名：株式会社Dolphin AI

Advanced Speech Interaction Solutions | Dolphin AI

Dolphin AIは音声認識、発音評価、音声合成APIなど20以上の言語をカバーする最先端の音声ソリューションを提供します。今すぐAPIをお試しください。

事業内容：
Dolphin SOE 英語発音評価サービスの開発＆販売
Dolphin Voice 音声対話SaaS Platformの開発＆販売

ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。

アクセス情報：〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線池袋駅東口（30番出口）より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線池袋駅東口（30番出口）より徒歩4分
西武池袋線池袋駅東口（30番出口）より徒歩4分
東武東上線池袋駅東口（30番出口）より徒歩4分

電話番号：(+81) 03-6775-4523
メールアドレス：contact@dolphin-ai.jp