Dlophin AI音声認識システムは、音声オーディオを対応する言語のテキストに変換する知能認識システムです。このシステムはエンドツーエンドフレームワークを採用し、5つの主要なモジュールを融合し、中国語、英語、日本語、フランス語、スペイン語、ロシア語、ドイツ語、タイ語など30以上の言語をサポートしています。
十万時間のオーディオと百億クラスのテキストの膨大なトレーニングデータに基づいて、Dlophin AI音声認識システムは高速かつ正確に音声認識タスクを完了することができます。このシステムはアプリケーションのシーンに対して強化されており、日本語と英語の混在話者シーンをサポートし、騒音/回響の強い環境にも適応し、ユーザーが多様なシーンでの使用ニーズを満たすことができます。
リアルタイム音声認識は、ネットワークサウンドカードのオーディオストリームを音声認識の音源としてサポートしており、システムは指定されたネットワークサウンドカードとマイク番号からオーディオストリームを取得し、その中の音声データを音声認識処理を行います。現在、特定のモデルのネットワークサウンドカードをサポートしており、最大で32個のマイクを並列でサポートできます。この機能はLinux x86/ARMアーキテクチャをサポートしています。
システムは単語、言語モデル、音響モデルの多層的なカスタマイズをサポートしており、ユーザーが人名、地名などの固有名詞から医療、教育などの専門分野の個々のカスタマイズニーズを満たすことができるだけでなく、特定の環境、特殊なチャネルに対する深いカスタマイズもサポートしています。