エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
こんにちは、松尾研究所の奥村です。 LLMの性能向上により、従来のNLPタスクだけではなく、より複雑な推... こんにちは、松尾研究所の奥村です。 LLMの性能向上により、従来のNLPタスクだけではなく、より複雑な推論が求められるタスクでの活用が注目されています。特にゲームプレイは、画面の理解や記憶、複雑な意思決定などが要求されるため、LLMの能力を総合的に評価する有効な手段として期待されています。 今回はLLMをゲームで評価するLMGame-Benchというベンチマークについて紹介します。 公式サイト: 論文: LMGame-Bench概要 ゲーム画面のみから直接行動を決定して評価するのではなく、行動決定を補助するモジュール(harness)をくっつけて評価するのが特徴的です。以下の3つがharnessとして採用されています。各モジュールでの推論は同一のLLM/VLMで行われます。 Perception modules グリッドベースのゲームでは、ゲーム画面をもとにオブジェクトやプレイヤーの位置を