GPTモデルはテキスト生成分野の各種タスクを比較的に良く処理することができます。例えば、テキスト補完、フリーQ&A、完形填空、作文、要約、小説、詩などがあります。最近インターネット全体で人気のある人工知能製品のChatGPTもGPTテキスト生成モデルをベースとしています。これらのアプリケーション分野でGPTの大規模モデルは効果は良いですが、トレーニングコストは非常に高くなります。OpenAIが発表した1750億のGPT-3为例、1024枚のA100 GPUで約34日が予想されます。1兆パラメーターのGPT-3は3072枚のA100カードで最低でも84日必要です。Microsoft/NVIDIAが共同で発表した5300億のNLGモデルは2048枚のA100カードで3か月のトレーニング時間がかかり、比較的に良い収束効果が得られます。
GPTの基本モデルはパラメーターの量が多く、訓練・推論のハードウェアリソースの消費が過大な問題があり、MoEを基盤とするスパース化訓練は、現在最も競争力のあるコスト削減と効率向上の方法です。MoEは「Expertsの混合」のことで、その中のExpertはTransfomrerモデルのMLP層に対応しており、訓練時には複数のMLPから1つのMLPを選択して活性化します(以下図参照)。これはモデルが計算強度(FLOPS/Bytes)を増加させずに、MLPモジュールの数を増やしてパラメーターの量を増やし、さらにダウンストリームタスクでのモデルの汎化性能を向上させることができることを意味します。MoEを採用したスパースTransformerモデルは、同等の品質の密なモデルと比較して、約1.2倍の訓練スループット性能向上と1.3倍の推論スループット性能向上があります。スパースアーキテクチャの全体設計では、MoEを純粋なTransformer DecoderアーキテクチャのGPTと有機的に結合することを選びました。その理由は、MoEがDecoderと結合する効果がEncoderと結合する効果よりも一般的に良いからです。具体的には、Encoderはランダムマスクの方法で言語モデルを学習し、ランダムにマスクされたトークンはexpertのルーティング選択に不均衡をもたらします。一方で、Decoder型のGPTモデルはEncoder型のBertモデルよりも幅広い使用シーンを持っていることを考慮し、GPT+MoEの技術アーキテクチャのルートを採用し、シングルマシンで最もエネルギー効率の高いグリーンローカルーGPT大モデルの訓練&推論软硬一体化の適合技術を中国語テキスト生成シーンでの導入の実現可能性を探求しています。
現在の比較的成熟した分散MoEのエキスパートルーティング選択技術に基づいて、Switch Transformer[2]のtop-1ルーティングメカニズムを採用しています。各Expertは以下のsoftmax関数に基づいて確率値が割り当てられ、最高の確率(top-1)を持つExpertがネットワークのFFN層として扱われます。ここでW_rは、ルーティング選択時に学習する必要のあるパラメーターです。
GPT-MoEの訓練&推論のエネルギー効率分析
どのような密な(Dense)GPTモデルにも、それに対応する訓練&推論速度がより速い疎な(MoE)GPTモデルの効果があります。私たちの目標は、シングルマシンなどの限定されたハードウェア条件下で、このようなGPT-MoEモデルの設定を見つけ出し、MoEアルゴリズムの改良を通じてさらにその訓練エネルギー効率を向上させることです。私たちは密な&疎なモデルの訓練&推論性能を比較することで、密なモデルと同等のエネルギー効率の高い疎なモデルを見つけ出します。
以下の表に、8つのGPTモデルのパラメーター量、モデル構造、訓練のハイパーパラメーターが示されています。
GPTモデル | パラメーター量 | レイヤー数 | ヘッド数 | 隠れサイズ | 学習率 | トークンのバッチサイズ |
---|---|---|---|---|---|---|
1.3B Dense | 1.3B | 24 | 32 | 2048 | 2e-4 | 1M |
2.7B Dense | 2.7B | 32 | 32 | 2560 | 1.6e-4 | 1M |
3.6B Dense | 3.6B | 30 | 32 | 3072 | 1.6e-4 | 1M |
0.35B+MoE-64 | 6.7B | 24 | 16 | 1024 | 3e-4 | 0.5M |
1.3B+MoE-32 | 13B | 24 | 32 | 2048 | 2e-4 | 1M |
1.3B+MoE-64 | 27B | 24 | 32 | 2048 | 1.6e-4 | 1M |
2.7B+MoE-64 | 56B | 32 | 32 | 2560 | 1.6e-4 | 1M |
3.6B+MoE-64 | 75B | 30 | 32 | 3072 | 1.6e-4 | 1M |
会社名:株式会社Dolphin AI
事業内容:
DolphinSOE 英語発音評価サービスの開発&販売
DolphinVoice 音声対話SaaS Platformの開発&販売
アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分
電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp