sh19910711 "trlx: 話題のChatGPTの学習に使われているRLHFを行うことができる強化学習フレームワーク / RLHF: OpenAIの出したFine-Tuning Language Models from Human Preferencesという論文で提案 / 人間のフィードバックは多くの場合微分できない"

2023年03月04日リンク

その他

ゲスト

コメントするにはログインが必要ですログインしてコメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

[<a href="https://b.hatena.ne.jp/entry.parts?url=https%3A%2F%2Fwww.ai-shift.co.jp%2Ftechblog%2F3246">フレーム</a>]

プレビュー

[フレーム]

はてなブックマークボタンを作成して埋め込むこともできます

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック!

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

usersに達しました!

さんが1番目にブックマークした記事「trlxを用いた文書...」が注目されています。

気持ちをシェアしよう

ツイートする

trlxを用いた文書生成モデルの学習1~ILQL編~ | 株式会社AI Shift

こんにちは AIチームの戸田です今回は最近話題のChatGPTの学習に使われているRLHF(Reinforcement Learn... こんにちは AIチームの戸田です今回は最近話題のChatGPTの学習に使われているRLHF(Reinforcement Learning from Human Feedback)を行うことができる強化学習フレームワーク、trlxを使った文章生成を試してみたいと思います。 trlxは強化学習手法としてILQL(Implicit Language Q-Learning)とPPO(Proximal Policy Optimization)の2種類が用意されており、それに加えて通常の言語モデルの学習であるSFT(Supervised Fine-Tuning)も実装されています。本記事では日本語感情分析データセットWRIMEのデータでILQLを使った学習を行い、PPOは次回の記事で試したいと思います。trlxライブラリを一通り動かすことを目的とし、パラメータ調整やデータクレンジングなどのより良い

ブックマークしたユーザー

nikutaiha2023年05月03日 nikutaiha
wrgbh4462023年03月05日 wrgbh446
sh199107112023年03月04日 sh19910711
xiangze2023年03月03日 xiangze
imyutaro2023年02月28日 imyutaro

気に入った記事をブックマーク

エントリーの編集

タイトルガイドライン

ブックマークしました

おすすめタグタグについて

よく使うタグすべて表示

trlxを用いた文書生成モデルの学習1~ILQL編~ | 株式会社AI Shift

おすすめタグタグについて

よく使うタグすべて表示

はてなブックマークで関心をシェアしよう

記事へのコメント1件

リンクを埋め込む

プレビュー

関連記事

usersに達しました!

trlxを用いた文書生成モデルの学習1~ILQL編~ | 株式会社AI Shift

ブックマークしたユーザー

ブックマークしたすべてのユーザー

同時期にブックマークされた記事

公式Twitter

はてなのサービス

よく使うタグ

よく使うタグ

はてなブックマークで
関心をシェアしよう