人工知能分野では、大規模なモデルのトレーニングが常に技術競争の焦点となっています。最近、DeepSeekは全新的なDeepSeek-V3モデルを発表しました。このモデルは、わずか500万ドル強のコストで、世界トップクラスのモデルに匹敵する性能を実現し、オープンソース化されました。これは无疑にAI分野における大きな突破です。本記事では、性能、アーキテクチャ、エンジニアリングの最適化、事前学習、および後学習の5つの次元から、DeepSeek-V3がどのように開発されたかを詳しく解説します。
一、性能:多様な分野でリードする
DeepSeek-V3は、複数の権威あるベンチマークテストで卓越した性能を発揮しました。このモデルは、知識理解、論理推理、数学能力、コード生成、ソフトウェア工学能力など、多岐にわたる分野で優れたパフォーマンスを示しました。特に、高度な数学推理能力を要求するテスト(例えばMATH 500やAIME 2024)では、他のモデルを大幅に上回る結果を残しました。
DeepSeek-V3-Baseは、DeepSeek-V2-Base、Qwen2.5 72B Base、LLaMA-3.1 405B Baseなど他のオープンソースの基盤モデルと比較して、几乎所有タスクで最高の成績を収めました。コマンド微調整後には、DeepSeek-V3はGPT-4o、Claude-3.5-Sonnetなど複数のトップレベルのモデルと比較して、同等もしくはそれ以上の性能を発揮しました。
二、アーキテクチャ:3つの革新的なブレイクスルー
DeepSeek-V3のアーキテクチャ設計には、以下の3つの革新が含まれています。
- マルチヘッド潜在アテンション(MLA):Key (K) と Value (V) を低次元の潜在空間ベクトルにマッピングすることで、KV Cacheのサイズを大幅に削減し、長文推理の効率を向上させます。この設計は、モデルの性能を保ちながら、メモリの使用量と計算コストを削減します。
- DeepSeekMoEアーキテクチャ:細粒度の専門家、共有専門家、Top-Kルーティングポリシーを採用し、モデルの容量を効率的に拡張します。各MoE層には1つの共有専門家と256のルーティング専門家が含まれ、各トークンは8つのルーティング専門家を選択し、最大で4つのノードにルーティングされます。このスパースな活性化メカニズムは、計算コストを大幅に増やすことなく、モデルに巨大な容量をもたらします。
- 無損失のロードバランス戦略:学習可能なバイアステームを導入してルーティング決定を動的に調整し、従来の補助損失がモデルの性能に及ぼす負の影響を回避します。この戦略は、専門家の負荷をより明確にし、MoEの可能性を最大限に引き出します。
三、エンジニアリングの最適化:効率を全面的に向上させる
DeepSeek-V3は、パイプライン並列処理、通信最適化、メモリ管理、低精度トレーニングなど、幅広いエンジニアリングの最適化を実施しました。
- DualPipeパイプライン並列処理:従来の単方向パイプラインとは異なり、DualPipeは双方向のパイプライン設計を採用し、パイプラインの両端からmicro-batchを供給することで、パイプラインの気泡を大幅に削減し、GPUの利用率を向上させます。計算と通信の順序を細かくスケジューリングすることで、両者の高度な重複を実現しました。
- 通信最適化:ノード制限ルーティング、カスタマイズされたAll-to-All通信カーネル、Warpの専門化、通信ブロックサイズの自動調整などの戦略を通じて、ノード間のMoEトレーニングにおける通信ボトルネックを効果的に緩和しました。
- メモリ管理:RMSNormとMLAの上投影の再計算、CPU上のEMAストレージ、共有EmbeddingとOutput Headなどの戦略を通じて、メモリの使用量を最大限に削減しました。
- FP8低精度トレーニング:FP8混合精度トレーニングを採用し、モデルの精度を保ちながら、メモリの使用量を大幅に削減し、トレーニング速度を向上させました。選択的な高精度、細粒度量子化、累積精度の向上、低精度ストレージと通信などの戦略を通じて、精度と効率のバランスを実現しました。
四、事前学習:精緻なデータと戦略
DeepSeek-V3の事前学習戦略は、データ構築、トークナイザー、ハイパーパラメーター設定、長文脈拡張、マルチトークン予測など、複数の側面をカバーしています。
- データ構築:事前学習用のコーパスの規模は14.8兆トークンに達し、厳密なフィルタリングとクリーニングが行われました。DeepSeek-V3は、数学とプログラミングに関連するデータの割合を大幅に増やし、マルチランゲージデータのカバレッジを拡張しました。また、文脈情報を失うことなく、ドキュメントレベルのパッキング方法を導入しました。
- トークナイザーと語彙表:バイトレベルのBPEをベースにしたトークナイザーを採用し、128Kの語彙表を構築しました。事前トークナイザーとトレーニングデータを最適化することで、マルチランゲージの圧縮効率を向上させました。
- モデル構成とハイパーパラメーター:Transformerの層数、隠れ層の次元、オプティマイザー設定、学習率スケジューリングなど、モデル構成とトレーニングハイパーパラメーターを慎重に設計し、モデルの性能とトレーニング効率を最大化しました。
- 長文脈拡張とマルチトークン予測:2段階のトレーニング戦略を採用し、文脈ウィンドウを4Kから128Kに拡張し、マルチトークン予測戦略を通じてモデルの予見能力を強化し、トレーニング効率を向上させました。
五、後学習:微調整と強化学習
DeepSeek-V3の後学習段階には、有監督微調整(SFT)と強化学習(RL)の2つのステップが含まれます。
- 有監督微調整(SFT):1.5Mの命令-応答ペアを含む高品質データセット上で微調整を行い、複数のタスクタイプと分野をカバーしました。慎重に設計されたシステムプロンプトとデータ構築戦略を通じて、モデルの複雑な推論タスクにおけるパフォーマンスを向上させました。
- 強化学習(RL):ルールベースの報酬モデルとモデルベースの報酬モデルを組み合わせた報酬メカニズムを採用し、Group Relative Policy Optimization (GRPO)アルゴリズムを通じてトレーニングを行い、モデルをより人間の好みに適合させました。
六、まとめ
DeepSeek-V3のリリースは、性能、アーキテクチャ、エンジニアリングの最適化における優れたパフォーマンスを示すだけでなく、DeepSeekチームが事前学習と後学習の戦略を細部にわたって設計していることを示しています。オープンソース化されたDeepSeek-V3は、世界中の開発者や研究者に強力なツールを提供し、人工知能技術のさらなる発展を促進しています。
会社名:株式会社Dolphin AI
事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売
ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。
アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分
電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp