vLLM 博客 | vLLM 是一个用于LLM推理和服务的快速易用库。

2025年6月30日
MiniMax-M1 混合架构携手 vLLM：长上下文，快推理
2025年5月12日
推出 vLLM 硬件插件，来自昇腾NPU的最佳实践
2025年4月23日
使用 vLLM 加速 RLHF，来自 OpenRLHF 的最佳实践
2025年4月11日
Transformers 后端在 vLLM 中的集成
2025年4月5日
vLLM 中的 Llama 4
2025年2月24日
PTPC-FP8：在 AMD ROCm 上提升 vLLM 性能
2025年2月21日
推出 AIBrix：一个可扩展、经济高效的 vLLM 控制平面
2025年2月17日
使用 vLLM 进行分布式推理
2025年1月27日
vLLM V1：vLLM 核心架构的一次重大升级
2025年1月27日
在 Llama Stack 中推出 vLLM 推理提供程序
2025年1月21日
使用“vLLM production-stack”在 K8S 中高性能轻松部署 vLLM
2025年1月14日
vLLM 中的结构化解码：简明入门
2025年1月10日
vLLM 2024 年回顾与 2025 年展望
2025年1月10日
轻松安装和开发 vLLM
2024年10月23日
在 AMD MI300X 上提供 LLM 服务：最佳实践
2024年10月17日
投机解码如何将 vLLM 性能提升高达 2.8 倍
2024年9月5日
vLLM v0.6.0：吞吐量提升 2.7 倍，延迟降低 5 倍
2024年7月25日
vLLM 的开放治理与性能路线图
2024年7月23日
宣布 vLLM 支持 Llama 3.1
2023年11月14日
关于 vLLM 对比 DeepSpeed-FastGen 的说明
2023年6月20日
vLLM：借助 PagedAttention 实现简单、快速且经济的 LLM 服务