エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
はじめに こんにちは.株式会社neoAIの研究開発組織 (neoAI Research) / 東京都立大学の板井孝樹です. ... はじめに こんにちは.株式会社neoAIの研究開発組織 (neoAI Research) / 東京都立大学の板井孝樹です. 昨今LLM based Agentの開発が盛んですが,実ユースケースへの応用においては多角的な評価が必要となります.そもそも"良いAgent"がどのような評価観点が求められるのかを知ることで,良い開発・価値提供が実現可能だと考えます. 本記事では,まずLLM Agentに求められる要素能力に関する評価観点についてまとめます.そしてこれらの要素能力を包括して遂行する必要のあるタスクに関する評価指標についてもまとめます.特に昨今のビッグテックのリリース時によく用いられる評価指標をベースに調査を行いました. LLM Agentの評価指標のサーベイに関する先行の取り組みとして,Yehudaiらの"Survey on Evaluation of LLM-based Agents