音声認識

AI 技術動向

無監督音声強化技術の進歩、UnSE+が音声存在確率を駆使

音声認識技術の最前線で、杭州电子科技大学と上海交通大学の研究チームが無監督学習を用いた音声強化手法「UnSE+」を発表しました。この技術は、ノイズを含む音声から干渉を抑え、音声信号の感知品質と理解性を高めることを目的としています。 UnSE...
AI 技術動向

NVIDIA、テキストと音声入力から音楽や効果音を生み出すAIモデルFugattoを発表

音声認識技術の最前線で、NVIDIAが革命的な生成式AIモデル「Fugatto(Foundational Generative Audio Transformer Opus 1)」を発表しました。このモデルは、テキストと音声入力から任意の音...
AI 技術動向

Moonshine:リソース制約デバイス向けのオープンソース音声認識モデル

音声認識技術は、AI分野の中でも特に重要な位置を占めており、リアルタイムの音声からテキストへの変換を提供します。最近、リソース制約デバイス向けに最適化されたオープンソース音声認識モデルであるMoonshineが登場し、話題を集めています。こ...
AI 技術動向

音声認識技術:SFから現実へ

SF映画「2001年宇宙を旅する」で、HAL 9000ロボットは自然な会話能力で有名です。この映画は過度に楽観的でしたが、音声認識技術の研究と開発に科学家たちを刺激しました。今日、私たちは音声認識技術が急速に発展し、私たちが機械と対話する方...
AI 技術動向

CosyVoice音声生成大模型:300M-Instructの先進機能を探求する

人工知能分野で、音声生成技術は研究と適用のホットスポットとなってきました。ModelScope.cnは最近、CosyVoice音声生成大模型をリリースしました。これは300Mのパラメーターを持ち、音声合成と理解タスクに特化した高度なモデルで...
AI 技術動向

WeNet-U2pp_Conformer:中国語リアルタイム音声認識の新しいフロンティアを探求する

人工知能技術の急速な発展の中で、リアルタイム音声認識技術は人と機械を結ぶ重要な架け橋となっています。ModelScope.cnがリリースしたWeNet-U2pp_Conformerモデルは、中国語音声認識タスクに特化し、16kHzの音声処理...
AI 技術動向

Conformer音声認識モデル:中国語aishell2データセットのオフライン処理能力を探求する

人工知能分野で、音声認識技術は常に研究と適用のホットスポットです。ModelScope.cnが最新にリリースしたConformer音声認識モデルは、中国語音声データセットaishell2を特に最適化し、16kHzの音声処理をサポートし、オフ...
AI 技術動向

AIが音声認識システムに与える影響:トレンドとイノベーション

デジタル時代において、音声認識技術は私たちの日常生活に欠かせない部分となっています。スマートアシスタントとしてのAlexaやSiri、車のハンズフリーナビゲーションシステムまで、AI駆動の音声認識は私たちの生活和工作の方法を変えています。こ...
AI 技術動向

临床语音AIの発展:責任と革新の架け橋

医療健康分野で、人工知能(AI)の適用が急速に拡大し、特にclinical diagnosisと患者监护において大きな潜在力を見せています。今日は、「npj Digital Medicine」誌に掲載された論文「責任あるclinical v...
AI 技術動向

Data2vec音声認識:预训练Paraformer中国語モデルの突破

人工知能の音声認識分野で、预训练モデルは認識性能を向上させるための重要な技術となっています。今日は、ModelScope.cn上のData2vec構造に基づくParaformer中国語音声認識モデルを紹介します。AISHELL-2データセッ...