人工知能技術の急速な発展の中で、OpenAIの最新リリースであるRealtime APIは、開発者が迅速なボイスダイアログ体験を構築する新たな可能性をもたらしました。この公開テスト版的リリースにより、すべての有料開発者は自分のアプリケーションで流れるようにボイスインタラクションを実現できるようになり、自然言語処理技術のフロンティアをさらに推進します。
Realtime APIの突破
Realtime APIは6つのプリセットボイスをサポートし、ChatGPTの高級ボイスモードと同様に、自然なボイスダイアログが可能になります。このAPIの導入は、ボイスインタラクションの実装プロセスを簡素化するだけでなく、開発者に強力なツールを提供して、低遅延のマルチモーダルアプリケーションを作成し、ユーザーエクスペリエンスを向上させることができます。
独立開発者への適用シナリオ
従来のボイスアシスタント開発では、開発者はオーディオをテキストに転写し、テキストモデルに入力して推論を行い、最終的にテキストを音声モデルに出力する必要がありました。このプロセスでは、感情やアクセントが失われるだけでなく、感知可能な遅延が生じます。Realtime APIは直接にオーディオ入力と出力をストリーミングし、会話の自然性を大幅に向上させ、中断を自動的に処理します。これはChatGPTの高級ボイスモードと同様です。
たとえば、HealthifyアプリケーションはRealtime APIを利用してAIコーチRiaと自然な会話を行い、Speak言語学習アプリはそのAPIのロールプレイング機能を通じて、ユーザーが新しい言語の練習を励ます。今では、開発者は複数のモデルを組み合わせる必要がなく、一つのAPIコールで自然な対話体験を実現できます。
価格とコスト
Realtime APIは現在、有料開発者のみ対象としており、新しいモデルGPT-4o gpt-4o-realtime-previewに基づくオーディオ機能を提供しています。Chat Completions APIのオーディオ機能は、新しいモデルgpt-4o-audio-previewを使用し、今後数週間でリリースされる予定です。開発者はテキストやオーディオを入力し、テキストやオーディオを生成できます。
Realtime APIの価格は高く、テキストトークンとオーディオトークンを同時に使用します。テキスト入力トークンの費用は$5/M、出力トークンは$20/Mです。オーディオ入力の費用は約0.06ドル/分、オーディオ出力の費用は約0.24ドル/分です。Chat Completions APIのオーディオ価格も同様です。
セキュリティとプライバシー
Realtime APIは、APIの誤用リスクを軽減するため、多层的なセキュリティ保護措置を採用しています。これには、自動監視とマークされたモデルの入力と出力に対する手動レビューが含まれます。このAPIは、ChatGPTの高級ボイスモードと同じGPT-4oバージョンに基づいており、OpenAIはそれを包括的に評価しました。自動化と手動評価を組み合わせた方法を使用し、OpenAIの準備フレームワークに基づく評価を含む詳細は、GPT-4oシステムカードを参照してください。Realtime APIはまた、OpenAIが高級ボイスモード用に構築した同じオーディオセキュリティインフラストラクチャを利用しており、テスト結果は潜在的な傷害リスクを効果的に低下させることを示しています。
どのように体験すればよいか
開発者は今後数日でRealtime APIを使用開始できます。OpenAIはプレイグラウンドと公式ドキュメントを提供し、開発者が迅速に手をつけ始め、自分のアプリケーションを構築できるようにしています。
Realtime APIの未来の方向性
完全な可用性に向かって進む過程で、OpenAIはRealtime APIの改善を目的としてフィードバックを積極的に収集しています。予定されている新しい機能には、マルチモーダルサポート、レート制限の引き上げ、公式SDKサポート、プロンプトキャッシング、およびモデルサポートの拡大が含まれます。
Realtime APIのリリースにより、開発者は低遅延のマルチモーダルアプリケーションを簡単に構築し、ユーザーエクスペリエンスを向上させることができます。教育ソフトウェアやカスタマーサポートを問わず、Realtime APIはボイスインタラクションの実装プロセスを簡素化し、独立開発者に対して新しい機会とインスピレーションをもたらします。
会社名:株式会社Dolphin AI
事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売
ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。
アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分
電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp