Dolphin AI音声認識システムは、音声オーディオを対応する言語のテキストに変換する知能認識システムです。このシステムはエンドツーエンドフレームワークを採用し、5つの主要なモジュールを統合して、中国語、英語、日本語、フランス語、スペイン語、ロシア語、ドイツ語など20以上の言語をサポートしています。
Dolphin AI 音声認識システムの機能
Dolphin AI音声認識システムを使用すると、以下の機能を簡単にあなたのアプリケーションに統合できます:
一発話認識:
オーディオデータをHTTPリクエストボディまたはWebSocketリクエストで音声認識サービスに送信し、各リクエストは最大60秒のオーディオデータのみを受け入れ、自動句読点機能はありません。
リアルタイム音声認識:
WebSocket双方向ストリーム内のオーディオデータに対して認識を行い、オーディオの長さに制限がありません。自動句読点が可能です。リアルタイム音声認識では、データを送信する同時に中間認識結果や最終認識結果を受け取ることができます。これはリアルタイムのフィードバックに使用されます。
録音ファイル書き起こし:
オーディオファイルをHTTPリクエストボディで音声認識サービスに送信し、非同期転写タスクを作成します。タスクが作成されると、クエリインターフェースを使用して転写進度を確認でき、タスクが正常に終了すると最終転写結果が得られます。
近期更新と最適化
新たな録音ファイルの転写で多チャネルオーディオのキャラクターの分離機能を追加しました。
これまでのバージョンでは、録音ファイルの転写で新しいタスクのインターフェースに双チャネル(または多チャネル)オーディオをアップロードした場合、システムはまずオーディオを単チャネルに縮小し、次に転写処理を行います。これにより、オリジナルのオーディオ情報が失われます。あるシナリオ(例えば、取調べ、カスタマーサービス電話など)では、ユーザーのオリジナル録音は既に双チャネルオーディオであり、話す双方のオーディオは各チャネルを占めます。新しいバージョンでは、このようなオーディオを直接アップロードすることができ、システムは2つ(または複数の)チャネル内の音声コンテンツを個別に処理し、転写結果にはチャネル番号が含まれています。これにより、多チャネルの録音ファイルの転写とキャラクターの分離機能を実現します。
新たな英語ホットワード機能を追加しました。
新しいバージョンでは、英語にもホットワード機能がサポートされています。特定の人名、地名、製品名、企業名、または特定の分野の専門用語など、一般的なモデルでは認識の正確性が高くないといけない場合があります。これらの専門用語に対して、「ホットワード」として手動で追加し、認識時に hotwords_id パラメーターを渡してホットワードIDを設定することで、ホットワードリスト内の語彙の認識正確性を大幅に向上させることができます。ホットワードを使用する場合、ホットワードの重みを指定できます。重みが大きいほど、ホットワードリスト内の語彙の認識正確性は高くなりますが、同時に他の類似音の誤認識の確率も増加するため、重みパラメーターの設定のバランスが必要です。
HTTPのロングコネクションを介してリアルタイム音声認識のストリーミング結果を取得する新機能を追加しました。
リアルタイム音声認識は、WebSocketプロトコルを使用してオーディオを送信し、認識結果を受け取るため、同じクライアントから送信と受信する必要があります。特定のシナリオでは、ユーザーはオーディオを1つのクライアントから送信し、別のクライアントから認識結果を受け取る必要があります。新しいバージョンでは、HTTPのロングコネクションを介して認識結果を取得する新しいインターフェースを追加しました。WebSocket接続を確立し、オーディオを送信して認識を開始した後、他の任意のクライアントは特定のtask_idのインターフェースをリクエストでき、認識結果はServer-sent events(SSE)の方法でストリーミング戻されます。戻される形式はWebSocket戻り内容と同じです。認識が終了すると自動的に接続が切断されます。
ホットワードのJsonフォーマットインターフェースを新たに追加しました。
ホットワードの更新や削除については、従来のForm-Dataインターフェースは上書き操作をサポートしており、ホットワード辞書全体を置換または削除します。新しいバージョンでは、Jsonフォーマットインターフェースが追加され、指定されたホットワード辞書に特定の(またはいくつかの)ホットワード項目を追加または削除することができます。これにより、操作の柔軟性が増加します。同時に、従来のForm-Dataフォーマットインターフェースも維持され、ユーザーの既存の統合製品に影響を与えません。
新たな音量ゲインパラメーターを追加しました。
オーディオの振幅は音量の大きさを決定し、振幅が過剰または不足すると音声認識の効果に影響を与えます。推奨される振幅は±10000前後で、これが音声認識の最適な効果を発揮します。以下の図を例に、左側は正常な振幅(範囲が±10k前後)、右側は振幅が不足している(範囲が±1k前後)ため、右側のオーディオの認識効果に影響を受けます。
振幅が小さい場合、2つの方法で改善が可能です。1つは、録音方法を調整することで、人とマイクの間の距離、マイク/録音パラメーター設定など、原始オーディオレベルで音量不足の問題を解決することです。2つ目は、新しいバージョンのgainパラメーターを使用して振幅ゲインを調整し、システムは内部で原始オーディオ振幅を増大させ、次に音声認識処理を行います。
8kHz PCM形式の録音ファイル転写のサポートを新たに追加しました。
PCM形式は、非圧縮でヘッダーのないオーディオの原始形式で、オーディオ信号を時間によって離散的にサンプリングし、各サンプル値を定点または浮動小数点数で表して保存します。他の形式と異なり、PCM形式ではサンプリングレート、チャネル数、ビット深さなどの情報は読み取れません。従来のバージョンでは、16kHzモデルで転写する際にこのオーディオは16kHz/単チャネル/16ビットのオーディオとして処理され、認識結果が完全に誤る可能性があります。新しいバージョンでは、ユーザーはformat=pcm_8000をパラメーターとして渡すことで、PCM形式オーディオのサンプリングレートを8kHzと指定し、16kHzのモデルで正確な転写処理を行うことができます。