エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
vLLMを使ってローカルLLMサービングを行うケースが増えています。そこで求められるのが、レイテンシ、GP... vLLMを使ってローカルLLMサービングを行うケースが増えています。そこで求められるのが、レイテンシ、GPUキャッシュ利用率、エラー率をはじめとした推論実行状況の把握です。本記事では、vLLMにPrometheusとGrafanaを組み合わせ、LLMサービングの「見える化」ダッシュボードを作る方法を紹介します。 *本記事は、NTTテクノクロスのテクニカルブログに掲載された「ローカルLLMサービングを見える化しよう」を転載したものです。読みやすさのための修正を加えています。 はじめに 皆さんは、ローカルLLMを複数人で使っていますか? ローカルLLMとは、ChatGPTのようなクラウドベースのサービスとは違い、企業や個人が自分のパソコンやサーバなど、手元の環境で動かせる大規模言語モデル(LLM)のことを指します。 ローカル環境は主に個人による利用が中心でしたが、企業内での活用などが進むにつれ