エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
はじめに 話題のDeepSeekですが、技術的な観点だと強化学習手法の改善が大きいようで気になったので調べ... はじめに 話題のDeepSeekですが、技術的な観点だと強化学習手法の改善が大きいようで気になったので調べてみました。 ただ参考のメンダコさんのブログが分かりやすくて... 記事にする必要あるか?と思ったけど途中まで作っていたのであげておきます。 GRPOを簡単に言うと、PPOからCriticをなくし、代わりにグループスコアからアドバンテージを推定する手法です。 これによりCriticの学習がなくなり、大幅な学習時間の短縮を実現した内容となります。 参考 (論文) DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (論文) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learn