📋 基本信息
| GitHub Stars | ⭐ 82.2k Stars |
| 开源许可证 | Apache-2.0 |
| 编程语言 | Python/C++ |
| 最新版本 | 0.7.0 |
| 最近更新 | 2026-05-28 |
📖 详细介绍
vLLM 是 UC Berkeley 开源的生产级大模型推理引擎,核心创新 PagedAttention 技术使 GPU 显存利用率提升 24 倍。支持连续批处理和动态批处理,在高并发场景下吞吐量远超同类方案。支持分布式多卡推理、AWQ/GPTQ/FP8 量化,兼容 OpenAI API 格式。已被 AWS、Google Cloud、阿里云等主流云厂商集成。如果你的应用需要高并发、低延迟的 LLM API 服务,vLLM 是目前生产环境的最佳选择。
✨ 核心特性
- PagedAttention 显存优化(利用率提升 24x)
- 连续批处理 + 动态批处理
- 多卡分布式推理
- AWQ/GPTQ/FP8 量化支持
- OpenAI 兼容 API + 流式输出
Advertisement