音声生成 | Dolphin Voice Blog

通義千問2.5-Omni-7B：多モード交互作用の新時代を開く

人工知能が急速に発展する今日、多モードモデルは研究のホットスポットとなっています。通義千問2.5-Omni-7Bは、テキスト、画像、音声、ビデオなど多様なモードを感知し、流式でテキストと自然な音声応答を生成する全モードモデルとして、この分野...

2025-03-28

AI 技術動向

人工知能分野において、音声生成技術は常に研究の焦点の一つです。ディープラーニング技術の発展に伴い、音声生成モデルのパフォーマンスと応用範囲は不断扩大しています。CosyVoice 2.0-0.5B は、ModelScope.cn が提供する...

2025-02-27

AI 技術動向

現代社会において、音声や動画コンテンツがますます豊富になる中で、「文字起こし」（音声や動画を文字に変換する作業）は多くの業界で必須のスキルとなっています。会議記録、ポッドキャスト制作、動画字幕の生成、コンテンツ制作など、音声を高速かつ正確に...

2025-02-25

AI 技術動向

デジタル時代において、音声AI技術はこれまでにない速度で発展しています。スマートスピーカーや音声アシスタントなど、音声AIは私たちの生活のあらゆる場面に浸透しています。しかし、a16z（アンドリーセン・ホロウィッツ・ファンド）の最新レポート...

2025-02-13

AI 技術動向

こんにちは、みなさん。今日は、自動音声認識技術（ASR）の音声アノテーションとそのアプリケーションシーンについて紹介します。ASR技術は、私たちの日常生活に深く根付き、人機対話の効率を大幅に向上させています。 ASR音声アノテーションとは？...

2024-12-19

AI 技術動向

「CosyVoice 2.0-0.5B」は、ModelScope.cnから提供されている最新の音声生成技術です。このモデルは、人工知能を用いて自然で流暢な音声を生成する技術を提供しており、多言語対応で、特に中国語の音声合成において優れた性能...

2024-12-17

AI 技術動向

こんにちは、今日はNVIDIAが発表した革新的な生成式AIモデル「Fugatto」について紹介します。このモデルは、言語ヒントに基づいて音楽や音声を生成することができます。 Fugattoの特徴 Fugattoは、他の音声生成ツールとは異な...

2024-12-04

AI 技術動向

デジタルトランスフォーメーションの波の中で、光学文字認識（OCR）技術は物理的な文書を編集可能な電子フォーマットに変換する重要なツールとなっています。今日は、stepfun-aiチームによって開発された先進的なOCRモデルであるGOT-OC...

2024-10-23

AI 技術動向