エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
環境 OS:ubuntu 20.04 GPU:RTX3060 12GB Memory:64GB(12GB程度しか利用していない) SSD:最低でも200GB... 環境 OS:ubuntu 20.04 GPU:RTX3060 12GB Memory:64GB(12GB程度しか利用していない) SSD:最低でも200GB-300GB程度の空きを推奨 Python:3.11 事前学習モデルやデータセットなど つらつらと事実だけ書いていきます。 やり方だけ知りたいという方は飛ばしてください。 モデルの特徴 400M程度の小さなTransf ormerを利用 位置埋め込みにRoPEを利用 Mixture of Experts(MoE)を利用 DeepSeekMoEと同様にshared expertsも利用 Grouped Query Attention(GQA)を利用してメモリ削減 活性化関数にSwiGLUを利用 推論時KVキャッシュが可能 モデルパラメータ 実際のパラメータ数 418.5M 学習可能パラメータ 418.5M Activeパラメータ 191.9