-
Notifications
You must be signed in to change notification settings - Fork 1.7k
Open
@qingbyin
Description
作者您好,
以下代码的factor被上层函数误传为configs.factor(注意力缩放因子),二者不是相同的参数,此处factor应该是路由数量,原论文默认是10,这里始终传入为configs.factor,导致默认为1。
self.router = nn.Parameter(torch.randn(seg_num, factor, d_model))
另外请教,为何注意力缩放因子configs.factor默认是1(许多模型还设置为3),而不是原 Transformer 中的 1/sqrt(d_model)?
Metadata
Metadata
Assignees
Labels
No labels