sh19910711 "Continuous batching: Text Generation InferenceやvLLMなどが採用 / Triton Inference ServerはDynamic batchingをサポートしていて、バッチにまとめたものをバックエンドに渡すことができます" '23

2024年10月04日リンク

その他

sh2

sh2 社内用の推論サーバーを作りたくて、この記事と前後の記事を確認する

2024年05月08日リンク

その他

ゲスト

コメントするにはログインが必要ですログインしてコメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

[<a href="https://b.hatena.ne.jp/entry.parts?url=https%3A%2F%2Fzenn.dev%2Frinna%2Farticles%2F7d10e61f694611">フレーム</a>]

プレビュー

[フレーム]

はてなブックマークボタンを作成して埋め込むこともできます

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック!

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

usersに達しました!

さんが1番目にブックマークした記事「テキスト生成APIサ...」が注目されています。

気持ちをシェアしよう

ツイートする

テキスト生成APIサーバのスループットを高めるbatching algorithms

はじめにテキスト生成モデルをAPIサーバでホストする需要が増えてきている昨今ですが1サーバでできるだ... はじめにテキスト生成モデルをAPIサーバでホストする需要が増えてきている昨今ですが1サーバでできるだけ多くのリクエストをさばくためにはどうすればよいでしょうか?もちろん高速なツールを使うことも重要ですが、それだけでは限界があります。前回の記事ではいくつかのツールを比較しましたが、どのツールでもバッチサイズを上げることで単位時間あたりの処理能力を高めることができるということがわかりました。つまりAPIサーバ側でバッチサイズを大きくする工夫をすることでより多くのリクエストをさばくことが可能になります。今回の記事ではText Generation InferenceやvLLMなどが採用して注目を集めているContinuous batchingと呼ばれる手法について紹介します。名称や仕組みなどについてはこれらの解説を参考にしています。予備知識 Continuous batchingの説明に

performance

ブックマークしたユーザー

sh199107112024年10月04日 sh19910711
sh22024年05月08日 sh2
gengohouse2023年06月29日 gengohouse

すべてのユーザーの
詳細を表示します

同時期にブックマークされた記事

いま人気の記事 - 企業メディア

企業メディアをもっと読む

気に入った記事をブックマーク

エントリーの編集

タイトルガイドライン

ブックマークしました

おすすめタグタグについて

よく使うタグすべて表示

テキスト生成APIサーバのスループットを高めるbatching algorithms

おすすめタグタグについて

よく使うタグすべて表示

はてなブックマークで関心をシェアしよう

記事へのコメント2件

リンクを埋め込む

プレビュー

関連記事

usersに達しました!

テキスト生成APIサーバのスループットを高めるbatching algorithms

ブックマークしたユーザー

ブックマークしたすべてのユーザー

同時期にブックマークされた記事

公式Twitter

はてなのサービス

よく使うタグ

よく使うタグ

はてなブックマークで
関心をシェアしよう