マイクロソフトの14B最强小型モデルPhi-4のローカルデプロイとパフォーマンステスト

この記事は約6分で読めます。

人工知能の分野では、マイクロソフトは常にその革新と強力な技術で業界をリードしてきました。最近、マイクロソフトは新しいオープンソースモデル——Phi-4を発表しました。このモデルはわずか14Bのパラメーターしか持たず、しかしパフォーマンスでは非常に優れており、某些方面ではGPT-4oに匹敌するほどです。今日は、このモデルの実際のパフォーマンスについて深く探求し、どのようにローカルにデプロイするかについても紹介します。

Phi-4:小さいながらも美しく優秀

Phi-4は、マイクロソフトが2024年12月に発表した最新の成果で、Phiシリーズのモデルの「小さいながらも美しく優秀」という特徴を継承しています。公式な紹介によると、Phi-4は複数のベンチマークテストで非常に優れた成績を収めており、特に数学とコードの方面で非常に目立っています。Phi-4がどのようにしてこれを行っているのかというと、それは主にその巧妙なデータの割合とトレーニング戦略によるものです。マイクロソフトは技術報告書の中でPhi-4のトレーニングプロセスを詳細に説明しており、その中で最も重要なポイントは、大量の合成データを使用し、高品質な公開されたネットワークデータ、学術書籍、そして質問回答データを組み合わせていることです。このデータ戦略により、Phi-4は小さいモデルサイズながら、豊富な知識と強力な推論能力を学ぶことができます。

ローカルデプロイ、手の届く範囲内

Phi-4の魅力を体験する最も直接的な方法は、それをローカルにデプロイすることです。現在、LM StudioとOllamaという二つのプラットフォームを通じて簡単に実現できます。

  • LM Studio:これは非常に人気のあるローカルモデル実行ツールで、GGUFやMLXを含む複数のモデルフォーマットをサポートしています。アップルのMチップユーザーにとって、MLXフォーマットはより良いパフォーマンスを提供することができます。
  • Ollama:これはコマンドラインツールで、使用が非常に便利で、ターミナル操作に慣れたユーザーに特に適しています。

ビデオでは、LM Studio上でPhi-4モデルをダウンロードして実行する方法についてもデモンストレーションを行いました。整個プロセスは非常に簡単で、初心者でも簡単に始めることができます。

モデルカードとデータセット、詳細を探る

Phi-4を使用する前に、そのモデルカード情報とトレーニングデータセットを理解することは非常に重要です。Hugging Face上でPhi-4のモデルカードを見つけることができ、モデルの各種パラメーター、トレーニング日付などの情報が詳細に記録されています。

技術報告の解釈:データが王様

マイクロソフトが発表したPhi-4技術報告書は、このモデルを深く理解するための貴重な資料を提供しています。報告書では、Phi-4のトレーニング方法とデータ戦略について詳細に紹介されています。データ分布図から、合成データがPhi-4トレーニングプロセスでの重要な役割を果たしていることがはっきりとわかります。さらに、報告書では、Phi-4が使用するSFT(Supervised Fine-tuning)データセットとDPO(Direct Preference Optimization)技術についても触れられており、これらの技術はモデルのパフォーマンスを向上させる鍵となる要素です。

パフォーマンスの比較:小さいモデル、大きなエネルギー

Phi-4のパフォーマンスを客観的に評価するために、マイクロソフトはGPT-4o、GPT-4o-mini、Qwenなどの複数のモデルと比較を行いました。比較結果によると、Phi-4はGPQA(大学院レベルの問題解答)と数学のベンチマークテストで、同等規模の他のモデルを上回り、甚至GPT-4oを超えるほどでした。これは、Phi-4の強力な実力を十分に証明しています。しかし、コードの方面では、Phi-4とGPT-4oにはまだ一定のギャップがあります。しかし、強化されたコード評価基準では、Phi-4のパフォーマンスはGPT-4o miniに非常に近づいており、これはPhi-4がコード生成方面で大きなポテンシャルを持っていることを示しています。Simple QAテストでは、Phi-4の得点は非常に低く、わずか3点で、GPT-4の39.4点には遠く及ばないものでした。これは、Phi-4が主に高品質なデータでのトレーニングに重点を置いているため、いくつかの簡単な質問回答問題にはあまり得意ではない可能性があります。

実践テスト

理論テストは確かに重要ですが、実際のパフォーマンスが最も重要です。次に、いくつかの実際のケースを通じて、Phi-4の本当の能力をテストしてみましょう。

  1. 数学能力テスト:Phi-4に数学の問題を出しましたが、Phi-4の最終的な答えは一部が間違っていました(正しい答えは0です)。
  2. 大学院レベルの問題解答:Phi-4は比較的完整的な答えを出し、Claudeの認可を得て、「正確で包括的」と評価されました。
  3. コードの論理的推論:Phi-4にPythonコードを書かせましたが、GPTとClaudeはこのコードの論理が正しいとし、いくつかの最適化提案を出しました。
  4. 論理的推論テスト:この問題は主にPhi-4の論理的判断能力をテストするものでしたが、Phi-4の答えの手順と結論はすべて正しいものでした。
  5. HTMLウェブページの作成:最後に、Phi-4にCSSとJavaScriptを含むHTMLページを作成させ、Tailwind CSSとFont Awesomeアイコンライブラリを使用しました。最終的に生成されたページの効果は悪くなく、基本的には予想していた機能を実現していました。

リソース

おわりに

マイクロソフトが提供する14Bパラメーターのオープンソースモデル、Phi-4は、パフォーマンスが非常に優れており、ローカルデプロイも非常に簡単です。数学、コード、論理的推論の各方面で、Phi-4は強力な能力を示しています。簡単な質問回答問題でのパフォーマンスが悪くても、高品質なデータでのトレーニングの優位性は依然として非常に明白です。開発者にとって、Phi-4は試してみるに値する強力なツールです。

会社名:株式会社Dolphin AI

Advanced Speech Interaction Solutions | Dolphin AI
Dolphin AIは音声認識、発音評価、音声合成APIなど20以上の言語をカバーする最先端の音声ソリューションを提供します。今すぐAPIをお試しください。

事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売

ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。

アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分

電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp

タイトルとURLをコピーしました