はてなブックマーク
テクノロジー
話題のDeepSeekで使われている強化学習GRPOを調べてみた - Qiita

気に入った記事をブックマーク

気に入った記事を保存できます
保存した記事の一覧は、はてなブックマークで確認・編集ができます
記事を読んだ感想やメモを書き残せます
非公開でブックマークすることもできます

話題のDeepSeekで使われている強化学習GRPOを調べてみた - Qiita

テクノロジーカテゴリーの変更を依頼記事元:qiita.com/pocokhc

適切な情報に変更

エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます

コメントを非表示にできますコメント表示の設定

ブックマークしました

ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

次回からTwitterへ自動リダイレクト

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

4users がブックマークコメント 1

ゲスト

コメントするにはログインが必要ですブックマークを追加

ブックマークを追加

よく使うタグ

話題のDeepSeekで使われている強化学習GRPOを調べてみた - Qiita

4 users qiita.com/pocokhc

よく使うタグ

はてなブックマーク

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページへ

記事へのコメント1件

注目コメント
新着コメント

misshiki

misshiki "GRPOを簡単に言うと、PPOからCriticをなくし、代わりにグループスコアからアドバンテージを推定する手法です。これによりCriticの学習がなくなり、大幅な学習時間の短縮を実現"

2025年02月14日リンク

その他

ゲスト

コメントするにはログインが必要ですログインしてコメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

[<a href="https://b.hatena.ne.jp/entry.parts?url=https%3A%2F%2Fqiita.com%2Fpocokhc%2Fitems%2Fb50a56febeab2c990bea">フレーム</a>]

プレビュー

[フレーム]

はてなブックマークボタンを作成して埋め込むこともできます

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック!

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

usersに達しました!

さんが1番目にブックマークした記事「話題のDeepSeekで...」が注目されています。

気持ちをシェアしよう

ツイートする

話題のDeepSeekで使われている強化学習GRPOを調べてみた - Qiita

はじめに話題のDeepSeekですが、技術的な観点だと強化学習手法の改善が大きいようで気になったので調べ... はじめに話題のDeepSeekですが、技術的な観点だと強化学習手法の改善が大きいようで気になったので調べてみました。ただ参考のメンダコさんのブログが分かりやすくて... 記事にする必要あるか?と思ったけど途中まで作っていたのであげておきます。 GRPOを簡単に言うと、PPOからCriticをなくし、代わりにグループスコアからアドバンテージを推定する手法です。これによりCriticの学習がなくなり、大幅な学習時間の短縮を実現した内容となります。参考 (論文) DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (論文) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learn

ブックマークしたユーザー

bizyaruo2025年03月17日 bizyaruo
misshiki2025年02月14日 misshiki
jmako2025年02月06日 jmako

すべてのユーザーの
詳細を表示します

同時期にブックマークされた記事

いま人気の記事 - 企業メディア

企業メディアをもっと読む

気に入った記事をブックマーク

エントリーの編集

タイトルガイドライン

ブックマークしました

おすすめタグタグについて

よく使うタグすべて表示

話題のDeepSeekで使われている強化学習GRPOを調べてみた - Qiita

おすすめタグタグについて

よく使うタグすべて表示

はてなブックマークで関心をシェアしよう

記事へのコメント1件

リンクを埋め込む

プレビュー

関連記事

usersに達しました!

話題のDeepSeekで使われている強化学習GRPOを調べてみた - Qiita

ブックマークしたユーザー

ブックマークしたすべてのユーザー

同時期にブックマークされた記事

公式Twitter

はてなのサービス

よく使うタグ

よく使うタグ

はてなブックマークで
関心をシェアしよう