エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
はじめに 既存の70BクラスのLLMが日本語でどのくらいの性能なのかを見る必要がありました。 本日はLLMを... はじめに 既存の70BクラスのLLMが日本語でどのくらいの性能なのかを見る必要がありました。 本日はLLMをElyza Tasks 100というベーシックなベンチマークを使って、評価をしたので、忘備録の記事を書きます。 n番煎じではありますが、スコアだけを出すのではなく、ローカルLLMの出力結果や点数の採点理由などをLangChainのLCELを利用して出力しています。 そういった情報もベンチマークを実行した際に取得したいなどあれば、少しは参考になるかなと思います。 特に、今回、ローカルLLMもクローズドLLMも両方使いたいので、共通した形式で利用できるLangChain(LCEL)を利用しました。 その中で、chat_templateというものでつまづきました。 同じようにつまづいている人の参考になれば非常に嬉しいです。 なお、今回は一番簡単にElyza Tasks 100を選んでいます