Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

PaddlePaddle/FastDeploy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

Repository files navigation

English | 简体中文

PaddlePaddle%2FFastDeploy | Trendshift
安装指导 | 快速入门 | 支持模型列表


FastDeploy :基于飞桨的大语言模型与视觉语言模型推理部署工具包

最新活动

[2025-11] FastDeploy v2.3 全新发布! 新增ERNIE-4.5-VL-28B-A3B-ThinkingPaddleOCR-VL-0.9B两大重磅模型在多硬件平台上的部署支持,进一步优化全方位推理性能,以及带来更多部署功能和易用性的提升,升级全部内容参阅v2.3 ReleaseNote

[2025-09] FastDeploy v2.2: HuggingFace生态模型兼容,性能进一步优化,更新增对baidu/ERNIE-21B-A3B-Thinking支持!

[2025-08] FastDeploy v2.1:全新的KV Cache调度策略,更多模型支持PD分离和CUDA Graph,昆仑、海光等更多硬件支持增强,全方面优化服务和推理引擎的性能。

关于

FastDeploy 是基于飞桨(PaddlePaddle)的大语言模型(LLM)与视觉语言模型(VLM)推理部署工具包,提供开箱即用的生产级部署方案,核心技术特性包括:

  • 🚀 负载均衡式PD分解:工业级解决方案,支持上下文缓存与动态实例角色切换,在保障SLO达标和吞吐量的同时优化资源利用率
  • 🔄 统一KV缓存传输:轻量级高性能传输库,支持智能NVLink/RDMA选择
  • 🤝 OpenAI API服务与vLLM兼容:单命令部署,兼容vLLM接口
  • 🧮 全量化格式支持:W8A16、W8A8、W4A16、W4A8、W2A16、FP8等
  • 高级加速技术:推测解码、多令牌预测(MTP)及分块预填充
  • 🖥️ 多硬件支持:NVIDIA GPU、昆仑芯XPU、海光DCU、天数智芯GPU、燧原GCU、沐曦GPU、英特尔Gaudi等

要求

  • 操作系统: Linux
  • Python: 3.10 ~ 3.12

安装

FastDeploy 支持在英伟达(NVIDIA)GPU昆仑芯(Kunlunxin)XPU天数(Iluvatar)GPU燧原(Enflame)GCU海光(Hygon)DCU 以及其他硬件上进行推理部署。详细安装说明如下:

入门指南

通过我们的文档了解如何使用 FastDeploy:

支持模型列表

通过我们的文档了解如何下载模型,如何支持torch格式等:

进阶用法

致谢

FastDeploy 依据 Apache-2.0 开源许可证. 进行授权。在开发过程中,我们参考并借鉴了 vLLM 的部分代码,以保持接口兼容性,在此表示衷心感谢。

About

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

Topics

Resources

License

Stars

Watchers

Forks

Packages

No packages published

AltStyle によって変換されたページ (->オリジナル) /