エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
0. 忙しい方へ 完全に畳み込みとさようならしてSoTA達成したよ Vision Transf ormerの重要なことは次の3... 0. 忙しい方へ 完全に畳み込みとさようならしてSoTA達成したよ Vision Transf ormerの重要なことは次の3つだよ 画像パッチを単語のように扱うよ アーキテクチャはTransf ormerのエンコーダー部分だよ 巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ 事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transf ormerの解説 Vision Transf ormer(=ViT)の重要な部分は次の3つです。 入力画像 アーキテクチャ 事前学習とファインチューニング それぞれについて見ていきましょう。 1.1 入力画像 まず入力画像についてです。ViTはTransf ormerをベースとしたモデル(というより一部を丸々使っている)ですが、