大規模言語モデル(LLM)の急速な発展に伴い、これらのモデルの出力を人間の好みと一致させることが重要な課題となっています。人間のフィードバックに基づく強化学習(RLHF)は、この課題を解決するための有力な手法として注目されています。しかし、PPO(Proximal Policy Optimization)やGRPO(Group Relative Policy Optimization)など、既存の手法は計算コストが大きく、訓練が不安定といった問題を抱えています。本記事では、新たな手法であるREINFORCE++について探ります。この手法は、古典的なREINFORCEアルゴリズムを最適化することで、より高い効率と安定性を実現しています。
背景:RLHFとREINFORCEアルゴリズム
人間のフィードバックに基づく強化学習(RLHF)は、人間の好みを訓練プロセスに組み込むことで、モデルが人間の価値観と一致した出力を生成できるようにします。RLHFは通常、以下のステップを含みます:
- 監督付き微調整(SFT):人間がラベル付けしたプロンプトとレスポンスデータを使用してモデルを微調整。
- 報酬モデル:モデルの出力のランキングデータに基づいて、人間の好みを予測する報酬モデルを訓練。
- ポリシーオプティマイゼーション:強化学習を用いてモデルのポリシーを最適化し、報酬モデルが予測する報酬を最大化。
RLHFは効果的ですが、計算コストが大きく、訓練が不安定といった課題に直面しています。REINFORCEは、強化学習における古典的なポリシーグラディエントメソッドですが、複雑なタスクを処理する際に勾配分散が大きいという問題があります。
REINFORCE++:最適化と革新
REINFORCE++は、古典的なREINFORCEアルゴリズムを強化し、PPOの主要な最適化技術を組み込みながら、criticネットワークの依存を排除しています。この手法は、簡易性、訓練の安定性、計算効率の向上を実現しています。
1. トークンレベルのKLペナルティ
REINFORCE++は、トークンレベルのKLダイバージェンスペナルティを導入し、クレジットの割り当てを促進し、報酬モデルとのシームレスな統合を実現しています。KLペナルティは報酬関数に組み込まれ、生成されたレスポンスが監督付き微調整モデルの分布と一致するようにします。
2. PPO-クリップの統合
REINFORCE++は、PPOのクリッピングメカニズムを採用し、ポリシーアップデートの幅を制限しています。このメカニズムは、過大なアップデートを防ぎ、訓練プロセス中の不安定さを回避します。
3. ミニバッチアップデート
ミニバッチアップデートを実装することで、REINFORCE++は訓練効率を向上させています。データはより小さなバッチに分割され、各アップデートで複数のパラメータ調整が行われ、収束速度が向上します。
4. 報酬の正規化とクリッピング
REINFORCE++は、報酬の全面的な処理を実施し、訓練プロセスの安定性を確保しています。zスコア正規化、値のクリッピング、スケーリングを用いて、報酬を処理します。
5. アドバンテージ関数の正規化
zスコア正規化を用いてアドバンテージ関数を処理し、REINFORCE++は勾配の安定性を確保し、訓練プロセス中の発散を防ぎます。
実験結果と分析
訓練の安定性
実験結果は、REINFORCE++が様々なシナリオで卓越した安定性を示すことを証明しています。特に、Bradley-Terry報酬モデルを使用する場合、REINFORCE++は報酬と出力長の操作を効果的に防ぎます(図1)。ルールベースの報酬モデルの下では、REINFORCE++はGRPOと同等のパフォーマンスを達成します(図2)。数学問題解決のシナリオでは、REINFORCE++は単位KLダイバージェンスあたりの報酬増加がGRPOよりも優れています(図3)。
計算効率
PPOと比較して、REINFORCE++はメモリ使用量と訓練時間の両方で削減を実現しています。例えば、NVIDIA H100上でLLaMA3 8Bモデルを用いて70kサンプルを処理する場合、REINFORCE++は計算コストを大幅に削減しています(表2)。
結論と将来の展望
REINFORCE++は、その簡易性と効率性により、RLHFタスクにおいて魅力的な代替案となっています。既存の手法に比べて訓練の安定性和計算効率が優れており、アライメントパフォーマンスも競争力を持っています。将来の研究では、REINFORCE++をより大きなデータセットやより複雑なアライメントシナリオに拡張する可能性を探求します。
おわりに
REINFORCE++の提案は、大規模言語モデルのアライメント問題に対する新たな解決策を提供しています。古典的なREINFORCEアルゴリズムを最適化することで、REINFORCE++は簡易性を保ちながら、訓練効率と安定性を大幅に向上させています。RLHF技術の発展に伴い、REINFORCE++はより多くの分野でその可能性を発揮するでしょう。
会社名:株式会社Dolphin AI
事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売
ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。
アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分
電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp