今天,我们激动地宣布 vllm-project/aibrix:一个由字节跳动开发的开箱即用的 vLLM Kubernetes 服务堆栈。AIBrix 于 2024 年初启动,已成功部署以支持字节跳动多个业务用例,证明了其在大规模部署中的可扩展性和有效性。

虽然 vLLM 使部署单个服务实例变得容易,但在大规模部署 vLLM 时,路由、自动扩缩和容错方面会带来独特的挑战。AIBrix 是一项开源计划,旨在提供构建可扩展推理基础设施的基本构建模块。它提供了一个云原生解决方案,专门为部署、管理和扩展大型语言模型 (LLM) 推理而优化,并根据企业需求量身定制。

初始版本侧重于以下关键功能

  • 高密度 LoRA 管理:简化对模型轻量级、低秩自适应的支持。
  • LLM 网关和路由:高效管理和定向跨多个模型和副本的流量。
  • LLM 应用定制自动扩缩器:根据实时需求动态扩展推理资源。
  • 统一 AI 运行时:一个通用的 Sidecar,支持指标标准化、模型下载和管理。
  • 分布式推理:可扩展的架构,用于处理跨多个节点的大型工作负载。
  • 分布式 KV 缓存:支持高容量、跨引擎的 KV 重用。
  • 高性价比的异构服务:支持混合 GPU 推理,以在 SLO 保证下降低成本
  • GPU 硬件故障检测:主动检测 GPU 硬件问题。

AIBrix 愿景与行业合作

AIBrix 构建于系统和推理引擎协同设计的原则之上,主要关注以云原生方式在 Kubernetes 上构建可扩展的推理系统。展望未来,我们将继续通过以下举措探索协同设计方法:

  • 扩展分布式 KV 缓存以支持更广泛的场景,包括 Prefill & Decode (P&D) 聚合、请求迁移和跨实例 KV 重用,从而提高内存效率和推理灵活性。
  • 将传统的资源管理原则(如 QoS、优先级、公平性)应用于 LLM 推理,以实现请求级别的多租户,从而确保高效的资源分配。
  • 应用基于屋顶线模型的分析来优化计算效率,并在各种工作负载中提供强大的 SLO 保证的推理性能。

作为这项使命的一部分,我们积极与行业领导者合作,推动 LLM 服务的开放、云原生解决方案。

“字节跳动一直是 Google 的出色合作伙伴,通过 Working Group Serving 推动 Kubernetes 中 LLM 服务的标准化,并为 Gateway API Inference Extension 做出贡献。我们很高兴继续合作开发共享组件,这些组件将支持 AIBrix 和大规模推理平台” - Clayton Coleman,GKE 杰出工程师和推理主管

“vLLM 在全球范围内经历了爆炸式增长,成为 LLM 推理的基石。AIBrix 是一个很有前景的项目,它建立在这个势头之上,提供强大的功能来生产化 vLLM,同时推动开源 LLM 推理的创新” - Robert Nishihara,Anyscale 联合创始人兼 Ray 联合创建者

了解更多

查看 https://github.com/vllm-project/aibrix 上的代码仓库,并深入阅读我们的博客文章,详细了解 AIBrix 的架构和关键功能。为了更深入的理解,请浏览我们关于设计理念和结果的白皮书,并按照文档开始部署和集成,并加入 vLLM slack 的 aibrix 频道与开发者讨论。

常见问题解答

AIBrix 与 vLLM 生产堆栈 有何不同?

  • AIBrix 是字节跳动发布的开源版本,专注于大规模用例和云原生解决方案。生产堆栈由芝加哥大学 LMCache 团队管理,是一个开放框架,欢迎所有人扩展、实验和贡献。您可以在此处查看生产堆栈的路线图。

  • AIBrix 是一个强大的 K8s 堆栈的实例化,并且在过去 6 个多月的时间里已在生产环境中使用。生产堆栈从头开始实现,专注于通过社区的反馈和贡献迭代每个构建模块。

  • 生产堆栈的期望优势是利用内置的以 KV 缓存为中心的优化(传输、混合、路由),这在长上下文和预填充繁重的工作负载中尤其有利。在短期内,生产堆栈计划利用 AIBrix 的组件。

AIBrix 是一个社区驱动的项目吗?

当然。在 vLLM 项目组织下开源它的目的是为了向从业者和研究人员开放合作。有许多计划增强的领域,核心开发者相信未来是开源的!

AIBrix 与其他云原生解决方案(如 KServe、KubeAI 等)有何不同?

AIBrix 提供与 vLLM 更原生的集成。通过仅考虑推理引擎进行设计,AIBrix 可以优先考虑快速模型加载、自动扩缩和 LoRA 管理等功能。