摘要

  • vLLM 拥有最大的开源社区,但如何将 vLLM 从最顶尖的单节点 LLM 引擎转变为一流的 LLM 服务系统呢?
  • 今天,我们发布 “vLLM production-stack”,这是一个基于 vLLM 的完整推理技术栈,它带来了两大优势:
    • 性能提升 10 倍(响应延迟降低 3-10 倍,吞吐量提高 2-5 倍),这得益于前缀感知的请求路由和 KV 缓存共享。
    • 轻松实现集群部署,内置支持容错、自动扩缩容和可观测性。
  • 最棒的是,它完全开源——所以每个人都可以立即上手![https://github.com/vllm-project/production-stack]

背景

在人工智能的军备竞赛中,竞争不再仅仅关乎谁拥有最好的模型,而是关乎谁拥有最好的 LLM 服务系统

vLLM 以其无与伦比的硬件和模型支持,以及由顶尖贡献者组成的活跃生态系统,在开源社区掀起了一场风暴。但到目前为止,vLLM 主要专注于单节点部署。

我们如何将其能力扩展为一个任何组织都可以大规模部署,并具备高可靠性高吞吐量低延迟全栈推理系统呢?这正是 LMCache 团队和 vLLM 团队构建 vLLM production-stack 的原因。

Icon

隆重推出 “vLLM Production-Stack

vLLM Production-stack 是一个开源的参考实现,它是一个构建在 vLLM 之上的推理技术栈,旨在 GPU 节点集群上无缝运行。它在 vLLM 原有优势的基础上,增加了四个关键功能:

  • KV 缓存共享与存储,在上下文复用时加速推理(由 LMCache 项目提供支持)。
  • 前缀感知路由,将查询发送到已持有相关上下文 KV 缓存的 vLLM 实例。
  • 可观测性,监控单个引擎状态和查询级别的指标(TTFT、TBT、吞吐量)。
  • 自动扩缩容,以应对动态变化的工作负载。

与替代方案的比较

下表简要对比了 vLLM production-stack 与其最接近的竞品:

Icon

设计

vLLM production-stack 架构建立在 vLLM 强大的单节点引擎之上,以提供集群级的解决方案。

概括来说:

  • 应用程序发送 LLM 推理请求。
  • 前缀感知路由检查请求的上下文是否已缓存在某个实例的内存池中。然后,它将请求转发到持有预计算缓存的节点。
  • 自动扩缩容和集群管理器会监控整体负载,并在需要时启动新的 vLLM 节点。
  • 可观测性模块收集 TTFT(首个 Token 生成时间)、TBT(Token 间生成时间)和吞吐量等指标,让您实时了解系统健康状况。
Icon

优势 #1:轻松部署

通过运行单个命令,使用 helm chart 将 vLLM production-stack 部署到您的 k8s 集群中。

sudo helm repo add llmstack-repo https://lmcache.github.io/helm/ &&\
  sudo helm install llmstack llmstack-repo/vllm-stack 

更多详情,请参阅 vLLM production-stack 仓库中的详细 README。我们还提供了关于设置 k8s 集群和自定义 helm chart 的教程

优势 #2:性能更佳

我们对 vLLM production-stack 及其他配置(包括 vLLM + KServe 和一个商业端点服务)进行了多轮问答工作负载的基准测试。结果显示,vLLM 技术栈在关键指标(首个 Token 生成时间和 Token 间延迟)上均优于其他配置。

Icon
Icon

优势 #3:轻松监控

通过关键指标实时跟踪您的 LLM 推理集群,包括延迟分布、请求数量随时间变化、KV 缓存命中率等。

Icon

结论

我们激动地发布 vLLM Production Stack——这是将 vLLM 从一流的单节点引擎转变为全方位 LLM 服务系统的下一步。我们相信,vLLM 技术栈将为那些寻求在不牺牲性能或简便性的前提下,大规模构建、测试和部署 LLM 应用的组织打开新的大门。

如果您和我们一样兴奋,就不要再等了!

加入我们,共同构建一个未来,让每个应用都能轻松、可靠、大规模地利用 LLM 推理的力量。部署愉快!

联系我们