はてなブックマーク
テクノロジー
LLMによるLLMの評価(LLM as a judge)の精度改善のための試行錯誤〜評価分割・モデル間比較

気に入った記事をブックマーク

気に入った記事を保存できます
保存した記事の一覧は、はてなブックマークで確認・編集ができます
記事を読んだ感想やメモを書き残せます
非公開でブックマークすることもできます

LLMによるLLMの評価(LLM as a judge)の精度改善のための試行錯誤〜評価分割・モデル間比較

テクノロジーカテゴリーの変更を依頼記事元:zenn.dev/pharmax

適切な情報に変更

エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます

コメントを非表示にできますコメント表示の設定

ブックマークしました

ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

次回からTwitterへ自動リダイレクト

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

17users がブックマークコメント 1

ゲスト

コメントするにはログインが必要ですブックマークを追加

ブックマークを追加

よく使うタグ

LLMによるLLMの評価(LLM as a judge)の精度改善のための試行錯誤〜評価分割・モデル間比較

17 users zenn.dev/pharmax

よく使うタグ

はてなブックマーク

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページへ

記事へのコメント1件

注目コメント
新着コメント

sh19910711

sh19910711 "LLM-as-a-Judge: LLMにLLMの出力を評価させる / GPT-4 Turboが最も精度が高いという結果 + 私たちの記述するプロンプトがGPT-4 Turboに最適化されているためにGPT-4 Turbo以外は、本来のポテンシャル以上に精度が低くなっている"

2024年06月06日リンク

その他

ゲスト

コメントするにはログインが必要ですログインしてコメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

[<a href="https://b.hatena.ne.jp/entry.parts?url=https%3A%2F%2Fzenn.dev%2Fpharmax%2Farticles%2F9b5fba24c252f3">フレーム</a>]

プレビュー

[フレーム]

はてなブックマークボタンを作成して埋め込むこともできます

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック!

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

usersに達しました!

さんが1番目にブックマークした記事「LLMによるLLMの評...」が注目されています。

気持ちをシェアしよう

ツイートする

LLMによるLLMの評価(LLM as a judge)の精度改善のための試行錯誤〜評価分割・モデル間比較

LLM-as-a-Judgeとは LLMをアプリケーションに組み込んでいると、LLMの出力を評価する必要が出てきます。... LLM-as-a-Judgeとは LLMをアプリケーションに組み込んでいると、LLMの出力を評価する必要が出てきます。 LLMの「出力は確率的である(毎回異なる)」ためです。また、LLMの出力はハルシネーションを含む可能性がありますし、間違いではないにしてもサービス提供者の意図とは違った出力をエンドユーザーに提示してしまうかもしれません。 LLMの出力を評価して、出力が適切でないことを判定できれば、ユーザーには表示しない、出力を再度行わせる(出力をLLMに修正させるのもよいでしょう)というようなことができるようになります。ただし、LLMのすべての出力を人が評価していたのでは、手が回りません。そこで、注目されているのが、LLM-as-a-Judgeと呼ばれるLLMにLLMの出力を評価させる手法(以後、単に評価と呼ぶ)です。評価にLLMを使えば、出力をすぐに評価し、評価結果をアプリケー

あとで読む

ブックマークしたユーザー

naoki4072024年06月07日 naoki407
developmaso2024年06月07日 developmaso
naggg2024年06月07日 naggg
wizluck2024年06月06日 wizluck
fm3152024年06月06日 fm315
triceratoppo2024年06月06日 triceratoppo
Buchi_6uclz12024年06月06日 Buchi_6uclz1
sh199107112024年06月06日 sh19910711
samurairodeo2024年06月06日 samurairodeo

すべてのユーザーの
詳細を表示します

同時期にブックマークされた記事

いま人気の記事 - 企業メディア

企業メディアをもっと読む

気に入った記事をブックマーク

エントリーの編集

タイトルガイドライン

ブックマークしました

おすすめタグタグについて

よく使うタグすべて表示

LLMによるLLMの評価(LLM as a judge)の精度改善のための試行錯誤〜評価分割・モデル間比較

おすすめタグタグについて

よく使うタグすべて表示

はてなブックマークで関心をシェアしよう

記事へのコメント1件

リンクを埋め込む

プレビュー

関連記事

usersに達しました!

LLMによるLLMの評価(LLM as a judge)の精度改善のための試行錯誤〜評価分割・モデル間比較

ブックマークしたユーザー

ブックマークしたすべてのユーザー

同時期にブックマークされた記事

公式Twitter

はてなのサービス

よく使うタグ

よく使うタグ

はてなブックマークで
関心をシェアしよう