NVIDIA、音楽と音声生成AIモデルFugattoを発表

この記事は約4分で読めます。

こんにちは、今日はNVIDIAが発表した革新的な生成式AIモデル「Fugatto」について紹介します。このモデルは、言語ヒントに基づいて音楽や音声を生成することができます。

Fugattoの特徴

Fugattoは、他の音声生成ツールとは異なり、人声や既存の音声を変更して新しい音声効果を作成することができます。例えば、ピアノの演奏をヴァイオリンや人声で表現したり、感情を楽しませる音声を怒りっぽく変えたりすることが可能です。このモデルは細かい編集もサポートしており、ピッチ、アクセント、感情表現を変更することができます。

モデルの出力は既存のデータソースに基づいていますが、NVIDIAはその創造力を強調しています。異なる音声効果を重ね合わせ、独特の「音声風景」を生成することができます。例えば、Fugattoは列車ノイズをオーケストラ音楽や怒り表現に変換するなど、多岐にわたる音楽、ゲーム、創作分野の可能性を示しています。

安全性と公開

NVIDIAはFugattoをまだ公開していないとのことです。安全上の理由から、チームはどのように安全にこの技術を公開するかを研究中です。Fugattoの登場は、生成式AIが音楽創作や音声デザインの分野を徐々に変えていくことを示しています。

他のニュース

他にもいくつかの興味深いニュースがありますが、ここではいくつかをピックアップします。

Appleの年間アプリ賞

Appleは2024年の「iPhoneアプリ賞」ノミネートリストを発表しました。伝統的なiOSアプリに重点を置いており、ビデオレコーディングアプリKino、ランニングプランアプリRunnaなどが含まれています。これらのアプリは、ユーザーが具体的なタスクを完了するのを助けることに焦点を当てており、AI駆動の機能を強調するものではありません。

PlayAIの資金調達

PlayAIは2100万ドルのシードラウンドを完了し、Kindred Venturesがリードした資金調達を行いました。この資金は、彼らの音声エージェントプラットフォームの開発能力を向上させるために使用されます。このプラットフォームは、モデルの追加トレーニングなしで多言語、多スタイルの自然な音声を生成し、企業にカスタマイズされた音声AIエージェントを提供します。

Luma AIの画像生成モデル

Luma AIは新しい画像生成モデル「Photon Image Model」を発表し、クリエイターや開発者に向けてDream Machineプラットフォームをオープンしました。この高性能モデルは、高品質な画像やビデオを迅速に生成し、他のモデルよりも800%速く処理することができます。

グーグルの広告独占問題

グーグルとアメリカ司法部は、バージニア州の裁判所で広告独占問題に関する閉廷陳述を終え、案件は重要な段階に入りました。司法部はグーグルが広告技術システムを利用して市場を独占していると指摘していますが、グーグルは激しい市場競争に直面していると主張しています。

AIフィクション症候群

グーグルAI検索がフィクション症候群「Kyloren症候群」を扱うことによって、公的な懸念が高まっています。この偽の症候群は、Neuroskepticが2017年に科学出版の隙間を明らかにするために作成されましたが、グーグルのGeminiモデルはそれを実際の症候群と誤解し、偽りの医学的詳細を追加してしまいました。

これらのニュースは、AI技術が急速に進化し、私たちの生活に影響を与える一方で、まだ解決すべき問題も多く存在することを示しています。AIの可能性を追求する一方で、その安全性や正確性を確保することも重要です。

会社名:株式会社Dolphin AI

Advanced Speech Interaction Solutions | Dolphin AI
Dolphin AIは音声認識、発音評価、音声合成APIなど20以上の言語をカバーする最先端の音声ソリューションを提供します。今すぐAPIをお試しください。

事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売

ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。

アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分

電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp

タイトルとURLをコピーしました