[フレーム]

サクサク読めて、
アプリ限定の機能も多数!

はてなブックマーク
テクノロジー
LLMの精度ってどう測るの?評価指標を調べてみた - SmartHR Tech Blog

気に入った記事をブックマーク

気に入った記事を保存できます
保存した記事の一覧は、はてなブックマークで確認・編集ができます
記事を読んだ感想やメモを書き残せます
非公開でブックマークすることもできます

LLMの精度ってどう測るの?評価指標を調べてみた - SmartHR Tech Blog

テクノロジーカテゴリーの変更を依頼記事元:tech.smarthr.jp

適切な情報に変更

エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます

コメントを非表示にできますコメント表示の設定

ブックマークしました

ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

次回からTwitterへ自動リダイレクト

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

82users がブックマークコメント 3

ゲスト

コメントするにはログインが必要ですブックマークを追加

ブックマークを追加

よく使うタグ

LLMの精度ってどう測るの?評価指標を調べてみた - SmartHR Tech Blog

82 users tech.smarthr.jp

よく使うタグ

はてなブックマーク

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページへ

記事へのコメント3件

注目コメント
新着コメント

dkfj

dkfj お、いろいろな評価指標がまとまっていて、ありがたい。

2025年08月07日リンク

その他

misshiki

misshiki "Model‐Based Scores(モデルベース指標):GPT‐4などの強力なLLMを介して、回答の一貫性・根拠性などを多面的にスコアリングする指標。...人間による評価と非常に近い評価を下せるとされる。評価ライブラリ一覧..."

2025年08月07日リンク

その他

cantaloupe

cantaloupe [評価] [指標]

2025年08月07日リンク

その他

ゲスト

コメントするにはログインが必要ですログインしてコメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

[<a href="https://b.hatena.ne.jp/entry.parts?url=https%3A%2F%2Ftech.smarthr.jp%2Fentry%2F2025%2F08%2F05%2F192115">フレーム</a>]

プレビュー

[フレーム]

はてなブックマークボタンを作成して埋め込むこともできます

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック!

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

usersに達しました!

さんが1番目にブックマークした記事「LLMの精度ってどう...」が注目されています。

気持ちをシェアしよう

ツイートする

LLMの精度ってどう測るの?評価指標を調べてみた - SmartHR Tech Blog

こんにちは。AIアシスタントチームでプロダクトエンジニアをしているmizunaoです。 SmartHRでは先日、人... こんにちは。AIアシスタントチームでプロダクトエンジニアをしているmizunaoです。 SmartHRでは先日、人事・労務に関する問い合わせにAIが回答するAIアシスタント機能をリリースしました。この機能では裏側でLLM(大規模言語モデル)を利用していますが、開発にあたって「LLMの精度をどう評価するか?」という課題に直面しました。実は私たちAIアシスタントチームでも、まだLLMの評価指標を体系的に活用できていない状況で、これから本格的に取り組んでいく必要があります。そこで今回、LLMの評価指標について調査・整理したので紹介します。 LLM評価指標とは? LLMの出力を評価するには、人の目だけでは限界があります。そこで登場するのがLLM評価指標です。これは入力・出力・コンテキストといった情報をもとに評価器(Scorer)がスコアを算出し、そのスコアが一定の基準(閾値)を満たしているかど

ブックマークしたユーザー

vine_hate2025年09月12日 vine_hate
midas365452025年08月11日 midas36545
kenta19842025年08月10日 kenta1984
hatakazu932025年08月08日 hatakazu93
esuji52025年08月08日 esuji5
flying-cat2025年08月08日 flying-cat
cross-xross2025年08月08日 cross-xross
lyiase2025年08月08日 lyiase
tmac01012025年08月08日 tmac0101
mayu_01212025年08月08日 mayu_0121
ZAORIKU2025年08月08日 ZAORIKU
donotthinkfeel2025年08月08日 donotthinkfeel
longyang2025年08月08日 longyang
h0ba2025年08月08日 h0ba
udon562025年08月08日 udon56
marioaoki2025年08月08日 marioaoki
croron2025年08月08日 croron
in_factor2025年08月08日 in_factor

気に入った記事をブックマーク

エントリーの編集

タイトルガイドライン

ブックマークしました

おすすめタグタグについて

よく使うタグすべて表示

LLMの精度ってどう測るの?評価指標を調べてみた - SmartHR Tech Blog

おすすめタグタグについて

よく使うタグすべて表示

はてなブックマークで関心をシェアしよう

記事へのコメント3件

リンクを埋め込む

プレビュー

関連記事

usersに達しました!

LLMの精度ってどう測るの?評価指標を調べてみた - SmartHR Tech Blog

ブックマークしたユーザー

ブックマークしたすべてのユーザー

同時期にブックマークされた記事

公式Twitter

はてなのサービス

よく使うタグ

よく使うタグ

はてなブックマークで
関心をシェアしよう