-
Notifications
You must be signed in to change notification settings - Fork 302
Open
@feng-1985
Description
p91
式(5.27),第二项p少了转置
p92
并和对应的查询和键进行相乘进行融合。
p145
在训练方式上,指令微调与预训练较为相似,很多设置包括数据组织形式都
可以预训练阶段所采用的技术(参考第 4 章和第 6 章)。本节主要介绍指令微调所
特有的一些训练策略。
p146
指令微调中的优化器设置(AdamW 或 Adafactor)、稳定训练技巧(权重衰减
和梯度裁剪)和训练技术(3D 并行、ZeRO 和混合精度训练)都与预训练保持阶
段一致,可以完全沿用。
Metadata
Metadata
Assignees
Labels
No labels