Dolphin AI音声認識システムの概要
Dolphin AI音声認識システムは、音声オーディオを対応する言語のテキストに変換する知能認識システムです。このシステムはエンドツーエンドフレームワークを採用し、5つの主要なモジュールを融合させ、中国語、英語、日本語、フランス語、スペイン語、ロシア語、ドイツ語、ベトナム語、チベット語、タイ語など、30以上の言語をサポートしています。
専門家の評価によると、Dolphin AI音声認識システムは教育、ニュース、裁判、会議などのシーンや分野で複数の競合製品を全面的に上回り、音声認識の正確性が最高で98.67%に達し、業界をリードするレベルにあります。
Dolphin AI認識システムV2.5.8バージョンでは、以下のような多項の更新と最適化が行われました:
単語機能に多言語サポートを追加
特定の人名、地名、商品名、企業名、または特定の分野の専門用語など、一般的なモデルでは認識の正確性が高くない場合があります。これらの専門用語に対して、「単語」として手動で追加し、認識の正確性を向上させることができます。現在、単語機能は中国語(普通话)、英語、日本語をサポートしており、単語リスト内の語彙の認識正確性を著しく向上させています。
日英混在モデルの追加
グローバリゼーションの進展に伴い、多言語でのコミュニケーションはますます一般的になっています。異なる言語環境下でのユーザーのコミュニケーションニーズを満たすために、音声認識システムに革新的な機能である日英混在モデルが追加されました。このモデルは日本語と英語の間の自由な切り替えを認識でき、多言語利用者のコミュニケーション効率を大幅に向上させます。モデルは日本語と英語の混合音声入力をサポートしており、純粋な日本語、純粋な英語、または両者の混合を含む文を正確に認識することができます。
認識結果の信頼度フィールドの追加
一発話認識(ストリーミングインターフェース)、リアルタイム音声認識、録音ファイル書き起こし(スクリプトモード)では、音声認識結果の信頼度を返すサポートが追加されており、これはシステムが認識結果に対する確信度や信頼度を示します。信頼度が高いほど、システムは返された認識結果がユーザーが述べた内容の正確な転写であることをより自信を持っていることが示されます。
バグ修正と機能の最適化
単語の作成に失敗しても単語IDがクエリで見られる問題を修正しました。 句読点の後の無音検出ロジックを最適化し、認識結果が得られた後にタイマーを開始するように変更しました。