Dolphin Voice Blog

音声生成技術：CosyVoice 2.0-0.5B

「CosyVoice 2.0-0.5B」は、ModelScope.cnから提供されている最新の音声生成技術です。このモデルは、人工知能を用いて自然で流暢な音声を生成する技術を提供しており、多言語対応で、特に中国語の音声合成において優れた性能...

2024-12-17

AI 技術動向

こんにちは、今日は「emotion2vec+large语音情感识别基座模型large模型」についてブログを書いていきます。 emotion2vec+largeモデルとは？「emotion2vec+large」は、ModelScope.cn...

2024-12-05

AI 技術動向

こんにちは、今日は「CAM++说话人日志-对话场景角色区分-通用」という話題についてブログを書いていこうと思います。「CAM++说话人日志-对话场景角色区分-通用」は、ModelScope.cnで提供されている技術です。この技術は、音声デ...

2024-12-05

AI 技術動向

INTERSPEECH 2024論文解说 MFSN：音声情感認識における多視点融合検索ネットワークこんにちは、今回はINTERSPEECH 2024で発表された論文「MFSN: Multi-perspective Fusion Searc...

2024-12-04

AI 技術動向

こんにちは、今日は北京智谱华章科技有限公司が新たにリリースしたエンドツーエンド音声大モデル、GLM-4-Voiceについて紹介します。この新しいモデルは、人工知能の多模態大模型家族に新たなメンバーを加え、機械と人の間の対話をより自然で流暢な...

2024-12-04

AI 技術動向

こんにちは、今日はオープンソースプロジェクトであるUltravoxについて紹介します。このプロジェクトは、人工知能の領域で注目を集めており、私たちが機械とより自然でスムーズに対話できるようにする非常に興味深いツールです。 Ultravoxの...

2024-12-04

AI 技術動向

こんにちは、今日はNVIDIAが発表した革新的な生成式AIモデル「Fugatto」について紹介します。このモデルは、言語ヒントに基づいて音楽や音声を生成することができます。 Fugattoの特徴 Fugattoは、他の音声生成ツールとは異な...

2024-12-04

AI 技術動向

Phonetic関数とは何か？データ処理の現代において、音声認識技術はますます广泛应用されており、phonetic関数はその中でも重要なツールとして位置づけられています。この関数は文字を音素表現に変換し、後の音声処理と分析を容易に行うこと...

2024-12-04

AI 技術動向

音声認識技術の最前線で、杭州电子科技大学と上海交通大学の研究チームが無監督学習を用いた音声強化手法「UnSE+」を発表しました。この技術は、ノイズを含む音声から干渉を抑え、音声信号の感知品質と理解性を高めることを目的としています。 UnSE...

2024-12-04

AI 技術動向

TechCrunchニュース、AI音声スタートアップであるElevenLabsが新しい機能をリリースしました。この機能では、ユーザーが各種のコンテンツをアップロードしてマルチボイスポッドキャストを作成することができ、GoogleのNoteb...

2024-12-04

AI 技術動向