はてなブックマーク
テクノロジー
gpt-oss Reinforcement Learning | Unsloth Documentation

気に入った記事をブックマーク

気に入った記事を保存できます
保存した記事の一覧は、はてなブックマークで確認・編集ができます
記事を読んだ感想やメモを書き残せます
非公開でブックマークすることもできます

gpt-oss Reinforcement Learning | Unsloth Documentation

テクノロジーカテゴリーの変更を依頼記事元:docs.unsloth.ai

適切な情報に変更

エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます

コメントを非表示にできますコメント表示の設定

ブックマークしました

ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

次回からTwitterへ自動リダイレクト

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

30users がブックマークコメント 2

ゲスト

コメントするにはログインが必要ですブックマークを追加

ブックマークを追加

よく使うタグ

gpt-oss Reinforcement Learning | Unsloth Documentation

30 users docs.unsloth.ai

よく使うタグ

はてなブックマーク

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページへ

記事へのコメント2件

注目コメント
新着コメント

misshiki

misshiki Unslothでgpt-ossを強化学習(RL)できるように。他の実装と比較して、最速の推論(3倍高速)、最低のVRAM使用量(50%削減)、最長のコンテキスト(8倍長い)を提供し、精度の低下はなし。

2025年09月29日リンク

その他

pico-banana-app

pico-banana-app UnslothでGPT-OSSの強化学習が爆速&省メモリに!推論3倍速でVRAM半分は神かよw これもう覇権だろwww

2025年09月28日リンク

その他

ゲスト

コメントするにはログインが必要ですログインしてコメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

[<a href="https://b.hatena.ne.jp/entry.parts?url=https%3A%2F%2Fdocs.unsloth.ai%2Fnew%2Fgpt-oss-reinforcement-learning">フレーム</a>]

プレビュー

[フレーム]

はてなブックマークボタンを作成して埋め込むこともできます

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック!

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

usersに達しました!

さんが1番目にブックマークした記事「gpt-oss Reinforce...」が注目されています。

気持ちをシェアしよう

ツイートする

gpt-oss Reinforcement Learning | Unsloth Documentation

You can now train OpenAI gpt-oss with RL and GRPO via Unsloth. Unsloth now offers the fastest inf... You can now train OpenAI gpt-oss with RL and GRPO via Unsloth. Unsloth now offers the fastest inference (3x faster), lowest VRAM usage (50% less) and longest context (8x longer) for gpt-oss RL vs. any implementation - with no accuracy degradation. Since reinforcement learning (RL) on gpt-oss isn't yet vLLM compatible, we had to rewrite the inference code from Transf ormers code to deliver 3x faster

ブックマークしたユーザー

poad10102025年10月08日 poad1010
mrpopup2025年09月29日 mrpopup
misshiki2025年09月29日 misshiki
supermomonga2025年09月29日 supermomonga
mstk_knife2025年09月29日 mstk_knife
sasasin_net2025年09月29日 sasasin_net
Tora20132025年09月29日 Tora2013
i-jumpmjag0j22052025年09月29日 i-jumpmjag0j2205
kiokudot2025年09月29日 kiokudot
chiba10082025年09月29日 chiba1008
ryoma_robo2025年09月29日 ryoma_robo
t_trad2025年09月29日 t_trad
yamori04082025年09月29日 yamori0408
mapk0y2025年09月29日 mapk0y
rikima31322025年09月28日 rikima3132
nmn_umu2025年09月28日 nmn_umu
test05302025年09月28日 test0530
wirehead2025年09月28日 wirehead

すべてのユーザーの
詳細を表示します

同時期にブックマークされた記事

いま人気の記事 - 企業メディア

企業メディアをもっと読む

気に入った記事をブックマーク

エントリーの編集

タイトルガイドライン

ブックマークしました

おすすめタグタグについて

よく使うタグすべて表示

gpt-oss Reinforcement Learning | Unsloth Documentation

おすすめタグタグについて

よく使うタグすべて表示

はてなブックマークで関心をシェアしよう

記事へのコメント2件

リンクを埋め込む

プレビュー

関連記事

usersに達しました!

gpt-oss Reinforcement Learning | Unsloth Documentation

ブックマークしたユーザー

ブックマークしたすべてのユーザー

同時期にブックマークされた記事

公式Twitter

はてなのサービス

よく使うタグ

よく使うタグ

はてなブックマークで
関心をシェアしよう