エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
1. はじめに Transf ormerは2017年に「Attention is all you need」という論文で発表され、自然言語処理... 1. はじめに Transf ormerは2017年に「Attention is all you need」という論文で発表され、自然言語処理界にブレイクスルーを巻き起こした深層学習モデルです。論文内では、英語→ドイツ語翻訳・英語→フランス語翻訳という二つの機械翻訳タスクによる性能評価が行われています。それまで最も高い精度を出すとされていたRNNベースの機械翻訳と比較して、 精度(Bleuスコア) 訓練にかかるコストの少なさ という両方の面で、Transf ormerはそれらの性能を上回りました。以降、Transf ormerをベースとした様々なモデルが提案されています。その例としては、BERT,XLNet,GPT-3といった近年のSoTAとされているモデルが挙げられます。 ここで、「Attention is all you need」内に掲載されているTransf ormerの構造の図を見てみま