高性能且易于部署的 vLLM in K8S 与 “vLLM production-stack”
TL;DR(太长不看)
- vLLM 拥有最大的开源社区,但如何将 vLLM 从最佳单节点 LLM 引擎转变为一流的 LLM 服务系统呢?
- 今天,我们发布 “vLLM production-stack”,这是一个基于 vLLM 的完整推理堆栈,它引入了两个主要优势
- 性能提升 10 倍(响应延迟降低 3-10 倍,吞吐量提高 2-5 倍),这得益于前缀感知请求路由和 KV 缓存共享。
- 轻松的集群部署,内置支持容错、自动扩缩和可观测性。
- 最棒的是什么?它是开源的——所以每个人都可以立即开始使用! [https://github.com/vllm-project/production-stack]
背景
在 AI 军备竞赛中,不再仅仅是谁拥有最好的模型——而是关于谁拥有最好的 LLM 服务系统。
vLLM 以其无与伦比的硬件和模型支持以及由顶尖贡献者组成的活跃生态系统,在开源社区中掀起了一股风暴。但到目前为止,vLLM 主要专注于单节点部署。
我们如何将其功能扩展到一个全栈推理系统,以便任何组织都可以在大规模部署,并具有高可靠性、高吞吐量和低延迟?这正是 LMCache 团队和 vLLM 团队构建 vLLM production-stack 的原因。

介绍 “vLLM Production-Stack”
vLLM Production-stack 是一个开源的 参考实现,它是一个构建在 vLLM 之上的 推理堆栈,旨在在 GPU 节点集群上无缝运行。它添加了四个关键功能,以补充 vLLM 的原生优势
- KV 缓存共享和存储,以加速上下文重用时的推理(由 LMCache 项目提供支持)。
- 前缀感知路由,将查询发送到已持有相关上下文 KV 缓存的 vLLM 实例。
- 可观测性,包括各个引擎状态和查询级指标(TTFT、TBT、吞吐量)。
- 自动扩缩,以处理工作负载的动态变化。
与替代方案的比较
下面是一个快速快照,比较了 vLLM production-stack 与其最接近的同类产品

设计
vLLM production-stack 架构构建在 vLLM 强大的单节点引擎之上,以提供集群范围的解决方案。
在高层面上
- 应用程序发送 LLM 推理请求。
- 前缀感知路由检查请求的上下文是否已缓存在某个实例的内存池中。然后,它将请求转发到具有预计算缓存的节点。
- 自动扩缩和集群管理器监视整体负载,并在需要时启动新的 vLLM 节点。
- 可观测性模块收集诸如 TTFT(首个令牌生成时间)、TBT(令牌间时间)和吞吐量等指标,让您实时了解系统的健康状况。

优势 #1:易于部署
使用 helm chart 通过运行单个命令将 vLLM production-stack 部署到您的 k8s 集群
sudo helm repo add llmstack-repo https://lmcache.github.io/helm/ &&\
sudo helm install llmstack llmstack-repo/vllm-stack
有关更多详细信息,请参阅 vLLM production-stack 仓库 中的详细 README。还提供了关于设置 k8s 集群和自定义 helm charts 的 教程。
优势 #2:更好的性能
我们对 vLLM production-stack 和其他设置(包括 vLLM + KServe 和商业端点服务)进行了多轮问答工作负载的基准测试。结果表明,vLLM 堆栈在关键指标(首个令牌生成时间和令牌间延迟)方面优于其他设置。


优势 #3:轻松监控
通过关键指标(包括延迟分布、随时间变化的请求数量、KV 缓存命中率)实时跟踪您的 LLM 推理集群。

结论
我们很高兴推出 vLLM Production Stack——将 vLLM 从一流的单节点引擎转变为全规模 LLM 服务系统的下一步。我们相信,vLLM 堆栈将为寻求构建、测试和部署大规模 LLM 应用程序的组织打开新的大门,且无需牺牲性能或简易性。
如果您和我们一样兴奋,请不要等待!
- 克隆仓库:https://github.com/vllm-project/production-stack
- 试用一下
- 让我们知道您的想法!
- 兴趣表单
加入我们,共同构建一个未来,让每个应用程序都可以利用 LLM 推理的力量——可靠、大规模且毫不费力。祝您部署愉快!
联系方式