人工知能の分野でOpenAIの最新動向は常に注目されます。北京時間10月2日の午前、OpenAIは彼らの第二次DevDay(開発者日)で炸裂的な更新を発表しました――リアルタイムAPI(Realtime API)で、開発者は先進の音声認識モデルを使用して開発を行うことができます。この技術は現在、すべての有料開発者に公開テスト版が提供されており、遅延が少なく、マルチモーダルなアプリケーション体験を作成できるよう手助けします。それはまるで真人間の間のコミュニケーションのように近いものです。
リアルタイムAPI:音声アプリケーションの新紀元を切り開く
リアルタイムAPIの音声機能は、全新なGPT-4oモデルgpt-4o-realtime-previewがサポートを提供し、今後数週間でChat Completions APIに統合される予定です。新しいモデルgpt-4o-audio-previewとして、開発者はGPT-4oにテキストや音声を入力し、テキスト、音声、またはその両方のレスポンスを受け取ることができます。この進歩は開発プロセスを簡素化し、より自然で流暢なユーザー体験を創造する可能性を提供します。
価格と分類定価
先ほどリリースされたo1モデルと同様に、リアルタイムAPIも分類定価戦略を採用しています。テキスト入力トークンの価格は100万トークン/5ドル、出力トークンの価格は100万トークン/20ドルです。音声入力の価格は100万トークン/100ドル、出力価格は100万トークン/200ドルです。これは約1分間の音声入力に0.06ドル、1分間の音声出力に0.24ドルに相当します。今後のChat Completions APIの音声機能も同じ定価を採用する予定です。
6つのプリセット音声オプション
リアルタイムAPIは6つのプリセット音声オプションを提供し、開発者は異なるアプリケーションシナリオとユーザーの好みに基づいてアプリケーションをカスタマイズできます。この進歩は、以前は複数のモデルを組み合わせることでしか実現が困難だった自然な会話を、今では一つのツールで簡単に実現できることを意味します。
課題から解決策へ
過去の音声アシスタント体験は多くの課題に満ちていた。開発者は複雑なプロセスに直面しなければならなかった。例えば、OpenAI Whisperのような自動音声認識モデルを使用して音声を転写し、次に変換されたテキストをテキストモデルに渡して推論または理解を行い、最後にテキストを音声モデルに渡して音声応答を生成するなどです。この方法では、会話の微妙な差異、例えば感情、アクセント、イントネーションなどが失われるだけでなく、複数のステップの処理による遅延も顕著で、ユーザー入力とAI応答の間に時間的なギャップを生じ、自然な会話感を損なう原因となりました。
リアルタイムAPIはこれらの問題を「優雅」な方法で解決します。GPT-4oと持続的なWebSocket接続を確立することで、リアルタイムAPIはシームレスな通信フローを実現し、中断や調整をリアルタイムで処理することができます。それはまるで2人が対面で会話しているかのようです。
協力ケース
公式では2つの協力ケースを提供しています。まずHealthifyという栄養とフィットネス指導アプリケーションで、リアルタイムAPIを使用してAIコーチRiaとの自然な会話を実現し、必要に応じて人間栄養士を介-involveします。
次にSpeakという言語学習アプリケーションで、リアルタイムAPIを使用してロールプレイ機能をサポートし、ユーザーが新しい言語で対話練習を楽しむことを奨励します。
未来の展望
技術の進歩に伴い、リアルタイムAPIはますます多くのアプリケーションで役割を果たすでしょう。より共感的で応答能力强い仮想セラピストから、複雑なタスクを管理する类人理解能力の個人アシスタントまで、これらのアプリケーションの可能性は開発者の想像力にのみ制限されます。APIは言語学や認知科学などの分野でも重要な役割を果たし、人類とAIの通信の本質に新しい洞察を提供するでしょう。
リアルタイムAPIの他の大きな特徴は、関数呼び出しをサポートすることです。これは音声アシスタントがユーザーの指令を理解するだけでなく、実際に操作を実行したり、即座に関連情報を取得してその応答をパーソナライズできることを意味します。この機能は対話型AIと実用性の境界を破り、AIアシスタントが日常タスクを処理する際により価値を加えるものです。
OpenAIは将来的な更新でAPIの機能を拡張し、視覚やビデオなどの追加モーダルをサポートすると表明しています。これにより、デジタルと現実世界との境界がさらに曖昧になりそうです。増加するレート制限により、より大規模なデプロイが可能になり、それを公式のPythonとNode.js SDKに統合することで、異なるプラットフォームの開発者がより簡単に使用できるようになります。さらに、即将する機能としてプロンプトキャッシュがあります。これにより、開発者は以前の対話ターンを低いコストで再処理でき、コストを削減し、AIインタラクションの効率性を高めることができます。
もちろん、どんな革命的な技術も注目すべき点があります。OpenAIはリアルタイムAPIの安全性とプライバシーについても高く評価しており、モデルの入力と出力に対する自動監視と手動レビューを含む多層的な保護措施を通じてAPIの誤用リスクを防止します。これはChatGPTの高級音声モードのために構築された音声セキュリティインフラも利用します。
とにかく、OpenAIが安全さとプライバシーに関する努力は良いスタートですが、技術が普及するにつれて、その責任ある使用を確保するために業界基準や規則を制定する必要があるかもしれません。
この自然な人工知能コミュニケーションの興隆は社会に深い影響を与える可能性があります。言語の壁を取り除き、障害者の利用を容易にすることはもちろんのこと、コミュニケーションスキルに基づく業界の雇用代替問題も懸念されます。技術が進歩するにつれて、その興奮する可能性を享受する一方で、その更なる社会的影响を慎重に考慮する必要があります。
人工知能分野の急速な発展に伴い、リアルタイムAPIのリリースは、より自然で、迅速で、実用性のあるAIアプリケーションを作成する上で重要な一歩を表しています。人間の会話とAI能力の間のギャップを埋めることで、OpenAIは既存の技術を改善するだけでなく、新しいアプリケーションや体験を開拓しています。未来の人工知能インタラクションはすでにその輪郭をしており、それは前例のない流暢さで話す、聞き、応答します。開発者がリアルタイムAPIの潜在力を絶えず掘り下げるにつれて、新しいAI駆動型アプリケーションが私たちの働く方法、学ぶ方法、コミュニケーションする方法を根本的に変えることが期待されます。人類とAI間の対話はますます自然で、繊細で、強力になるでしょう。
会社名:株式会社Dolphin AI
事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売
ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。
アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分
電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp