AI 技術動向

音声生成技術:CosyVoice 2.0-0.5B

「CosyVoice 2.0-0.5B」は、ModelScope.cnから提供されている最新の音声生成技術です。このモデルは、人工知能を用いて自然で流暢な音声を生成する技術を提供しており、多言語対応で、特に中国語の音声合成において優れた性能...
AI 技術動向

emotion2vec+large语音情感识别基座模型large模型

こんにちは、今日は「emotion2vec+large语音情感识别基座模型large模型」についてブログを書いていきます。 emotion2vec+largeモデルとは? 「emotion2vec+large」は、ModelScope.cn...
AI 技術動向

CAM++说话人日志-对话场景角色区分-通用とは?

こんにちは、今日は「CAM++说话人日志-对话场景角色区分-通用」という話題についてブログを書いていこうと思います。 「CAM++说话人日志-对话场景角色区分-通用」は、ModelScope.cnで提供されている技術です。この技術は、音声デ...
AI 技術動向

音声情感認識における多視点融合検索ネットワーク

INTERSPEECH 2024論文解说 MFSN:音声情感認識における多視点融合検索ネットワーク こんにちは、今回はINTERSPEECH 2024で発表された論文「MFSN: Multi-perspective Fusion Searc...
AI 技術動向

GLM-4-Voice:智谱が新たにリリースしたエンドツーエンド音声大モデル、オープンソース公開

こんにちは、今日は北京智谱华章科技有限公司が新たにリリースしたエンドツーエンド音声大モデル、GLM-4-Voiceについて紹介します。この新しいモデルは、人工知能の多模態大模型家族に新たなメンバーを加え、機械と人の間の対話をより自然で流暢な...
AI 技術動向

Ultravox:リアルタイム音声対応の迅速なマルチモーダル大規模言語モデル

こんにちは、今日はオープンソースプロジェクトであるUltravoxについて紹介します。このプロジェクトは、人工知能の領域で注目を集めており、私たちが機械とより自然でスムーズに対話できるようにする非常に興味深いツールです。 Ultravoxの...
AI 技術動向

NVIDIA、音楽と音声生成AIモデルFugattoを発表

こんにちは、今日はNVIDIAが発表した革新的な生成式AIモデル「Fugatto」について紹介します。このモデルは、言語ヒントに基づいて音楽や音声を生成することができます。 Fugattoの特徴 Fugattoは、他の音声生成ツールとは異な...
AI 技術動向

Phonetic関数の使い方詳解:音声認識のデータ処理技術を向上させる

Phonetic関数とは何か? データ処理の現代において、音声認識技術はますます广泛应用されており、phonetic関数はその中でも重要なツールとして位置づけられています。この関数は文字を音素表現に変換し、後の音声処理と分析を容易に行うこと...
AI 技術動向

無監督音声強化技術の進歩、UnSE+が音声存在確率を駆使

音声認識技術の最前線で、杭州电子科技大学と上海交通大学の研究チームが無監督学習を用いた音声強化手法「UnSE+」を発表しました。この技術は、ノイズを含む音声から干渉を抑え、音声信号の感知品質と理解性を高めることを目的としています。 UnSE...
AI 技術動向

AIボイス企業ElevenLabs、NotebookLMに挑む機能をリリース、AIがポッドキャストを作成

TechCrunchニュース、AI音声スタートアップであるElevenLabsが新しい機能をリリースしました。この機能では、ユーザーが各種のコンテンツをアップロードしてマルチボイスポッドキャストを作成することができ、GoogleのNoteb...