Crossformer实现的参数传入bug报告 #765

Open

Description

opened

作者您好,

以下代码的factor被上层函数误传为configs.factor(注意力缩放因子),二者不是相同的参数,此处factor应该是路由数量,原论文默认是10,这里始终传入为configs.factor,导致默认为1。

Line 262 in a22d110

self.router = nn.Parameter(torch.randn(seg_num, factor, d_model))

另外请教,为何注意力缩放因子configs.factor默认是1(许多模型还设置为3),而不是原 Transformer 中的 1/sqrt(d_model)?

No one assigned

No labels

No type

No projects

No milestone

None yet

No branches or pull requests