vLLM

⭐ 82.2k Apache-2.0 Python/C++ 0.7.0

高吞吐量 LLM 推理引擎，PagedAttention 技术使显存利用率提升 24 倍

📋 基本信息

GitHub Stars	⭐ 82.2k Stars
开源许可证	Apache-2.0
编程语言	Python/C++
最新版本	0.7.0
最近更新	2026-05-28

📖 详细介绍

vLLM 是 UC Berkeley 开源的生产级大模型推理引擎，核心创新 PagedAttention 技术使 GPU 显存利用率提升 24 倍。支持连续批处理和动态批处理，在高并发场景下吞吐量远超同类方案。支持分布式多卡推理、AWQ/GPTQ/FP8 量化，兼容 OpenAI API 格式。已被 AWS、Google Cloud、阿里云等主流云厂商集成。如果你的应用需要高并发、低延迟的 LLM API 服务，vLLM 是目前生产环境的最佳选择。

✨ 核心特性

✅PagedAttention 显存优化（利用率提升 24x）
✅连续批处理 + 动态批处理
✅多卡分布式推理
✅AWQ/GPTQ/FP8 量化支持
✅OpenAI 兼容 API + 流式输出

🚀 快速开始

uv pip install vllm

vLLM

📋 基本信息

📖 详细介绍

✨ 核心特性

🚀 快速开始

🔗 同分类其他工具

Ollama

Open WebUI

GPT4All