NVIDIA、テキストと音声入力から音楽や効果音を生み出すAIモデルFugattoを発表

この記事は約5分で読めます。

音声認識技術の最前線で、NVIDIAが革命的な生成式AIモデル「Fugatto(Foundational Generative Audio Transformer Opus 1)」を発表しました。このモデルは、テキストと音声入力から任意の音楽、歌声、効果音を生成することができます。

Fugattoの紹介

Fugattoは、生成式AI研究者グループによって開発された「音のスイスアーミーナイフ」と呼ばれるツールです。ユーザーはテキストのみでオーディオ出力を制御し、音楽、歌声、効果音の生成や変換を実行できます。テキストに基づいて音楽の断片を作成したり、既存の曲に楽器を追加・削除したり、声のアクセントや感情を変えたり、あるいは全く新しい音を創造することができます。

プラチナレコードプロデューサーで、One Take Audioの共同創設者であるイド・ズミシュラニ氏は、「Fugattoの登場は驚くべきことです。スタジオで新しい音効果を即座に創造できるなんて、信じられないです」とコメントしています。

NVIDIAのアプリケーション音響研究マネージャーで、Fugattoの背後にある主要人物の1人でもあるラファエル・バジェ氏は、「私たちの目標は、人間のように音を理解し生成するモデルを創造することです」と語っています。Fugattoは、さまざまなトレーニング能力から生まれる特性を示し、自由形式の指令を組み合わせることができる最初の基礎生成式AIモデルです。

Fugattoの応用例

  • 音楽プロデューサーは、曲のアイデアを迅速にプロトタイプ化または編集し、異なるスタイル、音、楽器を試し、効果を加えて既存のトラックの音質を向上させることができます。
  • 広告代理店は、Fugattoを利用して、異なる地域や状況の既存の広告キャンペーンのナレーションのアクセントや感情を迅速に調整できます。
  • 言語学習ツールは、任意の話者を選択して声をカスタマイズでき、オンラインコースを任意の家族や友人の声で話すことができます。
  • ビデオゲーム開発者は、Fugattoを利用して、ゲーム内の動きに基づいてプリ-recordedアセットを変更したり、テキスト指令とオプションのオーディオ入力に基づいてリアルタイムに新しいアセットを作成することができます。

Fugattoの特長の一つは、ユーザーの説明に基づいて任意の音を生成できる能力です。たとえば、トランペットで犬の鳴き声を出すようにしたり、サックスで猫の鳴き声を出すようにすることが可能です。ユーザーが説明できる限り、モデルはそれを創造することができます。

Fugattoの技術的な革新

Fugattoは、少量の歌唱データで調整され、テキスト提示から高品質の歌唱声を生成する未经トレーニングのタスクを処理することができます。Fugattoは推論時に「ComposableART」という技術を使用し、トレーニング時にのみ個別に見た命令を組み合わせることができます。この能力により、ユーザーはテキスト命令を細かい粒度で制御でき、例えばアクセントの強さや悲しさの程度を調整できます。

Fugattoはまた、時間とともに変化する音を生成する能力を持っており、これは「時間内挿入」と呼ばれています。たとえば、雷が徐々に強まる puis 遠くで慢慢と消えるような嵐の音を作成することができます。

さらに、Fugattoでは音景の進化に対する細かい粒度の制御が可能です。ほとんどのモデルはトレーニングデータに触れた音だけを再現することができるのに対し、Fugattoでは見たことのない音景を創造することができます。例えば、嵐が鳥の鳴き声のする夜明けに徐々に移行する音景を作成することができます。

Fugattoは、基礎的な生成式変換モデルであり、チームが過去に音声モデリング、音声コーデック、音声理解などの分野で行った研究に基づいています。フルバージョンは25億パラメーターを使用し、32個のNVIDIA H100 Tensor Core GPUを備えたNVIDIA DGXシステムでトレーニングされました。Fugattoは、インド、ブラジル、中国、ヨルダン、韓国など世界各地からの多様なチームによって作成され、そのマルチアクセントや多言語能力が強化されています。

Fugattoの開発プロセスの中でも最も挑戦的な部分の1つは、トレーニングに使用される数百万のオーディオサンプルを含む混合データセットの生成でした。チームは多角的な戦略を用いてデータを生成し、命令を生成し、モデルが実行できるタスクの範囲を大幅に拡大し、より正確なパフォーマンスを実現し、新しいタスクを有効にしました。彼らはまた、既存のデータセットを詳細に研究し、データ間の新しい関係を明らかにしました。この仕事は1年余りにわたって行われました。

Fugattoモデルのリリースは、音声合成と変換分野の重要な進歩を示すものであり、さまざまな音声タスクを処理するだけでなく、異なる命令を組み合わせて新しい音の現象を作成する能力を示しています。これは、未来の音声技術とクリエイティブなアプリケーションに対する新しい可能性を開拓します。

会社名:株式会社Dolphin AI

Advanced Speech Interaction Solutions | Dolphin AI
Dolphin AIは音声認識、発音評価、音声合成APIなど20以上の言語をカバーする最先端の音声ソリューションを提供します。今すぐAPIをお試しください。

事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売

ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。

アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分

電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp

タイトルとURLをコピーしました