エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
LLMの出力結果を本番デプロイした後に把握できてますか? LLMを使うと、さまざまなタスクで60点から70点... LLMの出力結果を本番デプロイした後に把握できてますか? LLMを使うと、さまざまなタスクで60点から70点程度の出力をシュッと出力してくれます。 しかし、アプリケーションで実施するタスクのテストデータを十分に用意できず、あまり良くないと分かっていながらも、やむを得ず手元で試行錯誤したプロンプトを勢いでデプロイしてしまうことも少なくないのではないでしょうか。 それでも、ユーザーの想定外の入力などにも一定レベルの出力ができているかは確認しておきたいですよね。 そんなときにLangfuseがとても便利だったので、今回は運用のイメージと共にコアとなるトレース機能を紹介します。 Langfuseの運用イメージ サービス上で実施された出力をトレースとして確認。 テストケースとして良さそうサンプルがあればそれを収集。 実験を実行してLLM-as-a-Jdugeで評価。 改善サイクルを回すといったフロー