-
AIBrix 介绍:vLLM 的可扩展、高性价比控制平面
-
使用 vLLM 进行分布式推理
-
vLLM V1:vLLM 核心架构的重大升级
-
在 Llama Stack 中引入 vLLM 推理提供程序
-
使用 “vLLM production-stack” 在 K8S 中实现 vLLM 的高性能和轻松部署
-
vLLM 中的结构化解码:入门介绍
-
vLLM 2024 年回顾与 2025 年展望
-
轻松安装和开发 vLLM
-
在 AMD MI300X 上服务 LLM:最佳实践
-
推测解码如何将 vLLM 性能提升高达 2.8 倍
-
vLLM v0.6.0:吞吐量提升 2.7 倍,延迟降低 5 倍
-
vLLM 的开放治理和性能路线图
-
宣布 vLLM 支持 Llama 3.1
-
关于 vLLM 与 DeepSpeed-FastGen 的说明
-
vLLM:使用 PagedAttention 实现简单、快速且廉价的 LLM 服务