エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
こんにちは。AIアシスタントチームでプロダクトエンジニアをしているmizunaoです。 SmartHRでは先日、人... こんにちは。AIアシスタントチームでプロダクトエンジニアをしているmizunaoです。 SmartHRでは先日、人事・労務に関する問い合わせにAIが回答するAIアシスタント機能をリリースしました。 この機能では裏側でLLM(大規模言語モデル)を利用していますが、開発にあたって「LLMの精度をどう評価するか?」という課題に直面しました。 実は私たちAIアシスタントチームでも、まだLLMの評価指標を体系的に活用できていない状況で、これから本格的に取り組んでいく必要があります。そこで今回、LLMの評価指標について調査・整理したので紹介します。 LLM評価指標とは? LLMの出力を評価するには、人の目だけでは限界があります。そこで登場するのがLLM評価指標です。これは入力・出力・コンテキストといった情報をもとに評価器(Scorer)がスコアを算出し、そのスコアが一定の基準(閾値)を満たしているかど