エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
Gemma: Open Models Based on Gemini Research and Techno logy 1. モデルアーキテクチャ デコーダーモデ... Gemma: Open Models Based on Gemini Research and Techno logy 1. モデルアーキテクチャ デコーダーモデル コンテキスト長:8192 1.1 Transf ormerからの改善 Multi-Query Attention 7Bはmulti-head attention 2Bはmulti-query attention RoPE Embeddings モデルサイズ削減のため位置埋め込みをRotary positional embeddingsに GeGLU Activations ReLUではなくGeGLUを利用 Normalizer Location transf ormerのレイターの正規化 2. 学習インフラ チップ TPUv5eチップを利用 事前学習に7Bモデルは4096個 事前学習に2Bモデルはは512個 JaxとPathways