Dolphin Voice Blog

多機能OCRソリューション：GOT-OCR2.0が複雑な文書処理能力を解錠

デジタルトランスフォーメーションの波の中で、光学文字認識（OCR）技術は物理的な文書を編集可能な電子フォーマットに変換する重要なツールとなっています。今日は、stepfun-aiチームによって開発された先進的なOCRモデルであるGOT-OC...

2024-10-23

AI 技術動向

F5-TTS：音声の質と速度の完璧なバランス

人工知能技術が急速に発展する今、テキストトゥースピーチ（TTS）技術はユーザー体験を向上させるための重要なツールとなっています。最近、上海交通大学がオープンソースとして公開したF5-TTSという高保真度、高効率のTTSプロジェクトが話題です...

2024-10-23

AI 技術動向

【Pronunciation Assessment API – DolphinSOE】が【英語発音AI評価オンラインデモシステム】機能強化リリースしました！

株式会社DolphinAI『Pronunciation Assessment API-DolphinSOE』で開発した発音評価デモシステム機能強化、英語発音より詳細韻律結果がリアルタイムフィードバック DolphinSOE - 英語発音AI...

2024-10-23

サ一ビスリリ一ス

オープンソースTTS神話ChatTTS：使用チュートリアルと開発ガイド

人工知能が常に進歩する今日、テキストトゥースピーチ（TTS）技術は、人と機械の間の対話体験を向上させる重要なツールとなっています。今日は、対話シナリオに最適化されたオープンソースTTSプロジェクトであるChatTTSについて探求していきまし...

2024-10-23

AI 技術動向

Whisperを解読する：AIが駆動する音声認識の新しい時代

人工知能の世界では、音声認識技術は常に人間の言葉と機械の理解を結ぶ重要な架け橋となっています。今日は、OpenAIが開発した革新的な自動音声認識（ASR）モデルであるWhisperについて探求していきましょう。これは単なるモデルではなく、複...

2024-10-23

AI 技術動向

音声認識システム Reverb ASR

こんにちは！今日は「Reverb ASR」という面白いシステムについてお話ししたいと思います。じゃあ、みんな、リラックスして聞いてね。まず、ASRってなんだろう？ASRは「Automatic Speech Recognition」の略で、...

2024-10-10

AI 技術動向

SenseVoice多言語音声理解モデル – small

SenseVoiceは高精度の多言語音声認識、感情認識、および音響イベント検出に特化しています。多言語認識：40万時間以上のデータで訓練され、50以上の言語をサポートし、Whisperモデルを上回る認識効果を実現しています。富文本認識：...

2024-09-24

AI 技術動向

SeACoParaformer ホットワード音声認識 – 中国語 – 汎用 – 16kHz – オフライン – large

Paraformer-largeモデルの紹介ハイライト Paraformer-largeホットワード版モデルはホットワードカスタマイズ機能をサポートしています：ホットワードリストに基づいてインセンティブを強化し、ホットワードのリコール率と...

2024-09-24

AI 技術動向

PLUG 事前トレーニング生成モデル-中国語-27B

大規模な中国語理解と生成の共同モデル PLUG PLUG (言語理解と生成のための事前トレーニング) は、中国語の理解と生成のための 270 億パラメータの大規模な共同事前トレーニングモデルです。モデルの説明 PLUG は、大量の高品質...

2024-09-24

AI 技術動向

GPT-MoE中国語13億広告コピー生成

GPTモデルはテキスト生成分野の各種タスクを比較的に良く処理することができます。例えば、テキスト補完、フリーQ&A、完形填空、作文、要約、小説、詩などがあります。最近インターネット全体で人気のある人工知能製品のChatGPTもGPTテキスト...

2024-09-24

AI 技術動向

多機能OCRソリューション：GOT-OCR2.0が複雑な文書処理能力を解錠

F5-TTS：音声の質と速度の完璧なバランス

【Pronunciation Assessment API – DolphinSOE】 が 【英語発音AI評価オンラインデモシステム】機能強化リリースしました！

オープンソースTTS神話ChatTTS：使用チュートリアルと開発ガイド

Whisperを解読する：AIが駆動する音声認識の新しい時代

音声認識システム Reverb ASR

SenseVoice多言語音声理解モデル – small

SeACoParaformer ホットワード音声認識 – 中国語 – 汎用 – 16kHz – オフライン – large

PLUG 事前トレーニング生成モデル-中国語-27B

GPT-MoE中国語13億広告コピー生成

【Pronunciation Assessment API – DolphinSOE】が【英語発音AI評価オンラインデモシステム】機能強化リリースしました！