奖励模型训练方式 #17

Open

Description

opened

on Aug 15, 2025

我看了咱们这个项目的RM训练方式,应该是正常大模型sft或者rl的方式,只是训练模型输出某个分数,但现在的框架例如llamafactory,openrlhf,训练奖励模型的方式其实是把大模型的隐藏层抽出来,然后添加value-head去回归分数,我想问咱们能否支持这样的方式。不知道您是否了解这两种方式的区别

Metadata

Assignees

No one assigned

Labels

No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

奖励模型训练方式 #17

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions