エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
はじめに 株式会社NTTデータ デジタルサクセスソリューション事業部 で AWS や Databricks を推進してい... はじめに 株式会社NTTデータ デジタルサクセスソリューション事業部 で AWS や Databricks を推進している nttd-saitouyun です。 MLflow LLM Evaluate で モデルサービングされた LLM を評価する記事を書きました。 今回は同じシナリオで、LLM-as-a-Judge による評価をしてみます。 マニュアルには OpenAI の GPT を使った評価が多いのですが、今回は、AWS で Databricks を使っている方に役立つように モデルサービングエンドポイントで接続している Amazon Bedrock / Claude 3.5 Sonnet を使って評価を行います。 MLflow LLM Evaluate LLM の評価は正解を定義することが難しいなど従来と違った難しさがありますが、MLflow LLM Evaluate は、LLM