エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日はGPT-4に強引に画像を読み込ませて行... こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日はGPT-4に強引に画像を読み込ませて行きたいと思います。 やりたいこと 言語モデルのIncontext Learning能力だけで画像を認識させる なにが面白いのか Computer Visionは非常におもしろい研究領域であり、畳み込みニューラルネットワーク(CNN)やTransf ormerを画像認識の領域に広げたVision Transf ormerは超おもろいです。 先日発表されたVirtual ChatGPTは既存研究を組み合わせ、VQA(画像をもちいた質問回答)や画像編集を行うことを可能にしています。 これらの研究はさらに進歩し、動画領域などに進んでいくことでしょう。 さて、今回はそれを忘れます。バイバーイ マタネー 今日やりたいのは、言語モデルのIncontext Learning