エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
はじめに 前回の記事ではテキスト生成APIサーバのスループットを高めるbatching algorithmsについて紹介... はじめに 前回の記事ではテキスト生成APIサーバのスループットを高めるbatching algorithmsについて紹介しました。今回は実際にAPIサーバに対して負荷テストを実施することで処理能力を実測します。dynamic batchingが可能なFasterTransf ormer+Triton Inference Serverとcontinuous batchingが可能なvLLMを比較します。モデルはHugging Faceで公開されているrinna/japanese-gpt-neox-3.6b-instruction-ppoを利用します。 APIサーバのセットアップ FasterTransf ormer+Triton Inference Server Triton Inference Serverがプリインストールされているdocker imageを利用します。dockerをインスト