AIBrix 简介：vLLM 的可扩展、高性价比控制面板

今天，我们激动地宣布 vllm-project/aibrix：一个由字节跳动开发的开箱即用的 vLLM Kubernetes 服务堆栈。AIBrix 于 2024 年初启动，已成功部署以支持字节跳动的多个业务用例，证明了其在大规模部署中的可扩展性和有效性。

虽然 vLLM 使部署单个服务实例变得容易，但在大规模部署 vLLM 时，路由、自动扩缩和容错方面会面临独特的挑战。AIBrix 是一项开源计划，旨在提供构建可扩展推理基础设施的基本构建块。它提供了一个云原生解决方案，专门为部署、管理和扩展大型语言模型 (LLM) 推理而优化，并根据企业需求量身定制。

初始版本侧重于以下关键功能

高密度 LoRA 管理：简化了对模型轻量级、低秩自适应的支持。
LLM 网关和路由：高效管理和引导跨多个模型和副本的流量。
LLM 应用定制自动扩缩器：根据实时需求动态扩展推理资源。
统一 AI 运行时：一个通用的 Sidecar，支持指标标准化、模型下载和管理。
分布式推理：可扩展的架构，可处理跨多个节点的大型工作负载。
分布式 KV 缓存：支持高容量、跨引擎的 KV 重用。
高性价比的异构服务：支持混合 GPU 推理，以在 SLO 保证下降低成本
GPU 硬件故障检测：主动检测 GPU 硬件问题。

AIBrix 愿景和行业合作

AIBrix 构建于系统和推理引擎协同设计的原则之上，主要侧重于以云原生方式在 Kubernetes 上构建可扩展的推理系统。展望未来，我们将继续通过以下举措探索协同设计方法：

扩展分布式 KV 缓存以支持更广泛的场景，包括 Prefill & Decode (P&D) 聚合、请求迁移和跨实例 KV 重用，从而提高内存效率和推理灵活性。
将传统的资源管理原则（如 QoS、优先级、公平性）应用于 LLM 推理，以实现请求级别的多租户，从而确保高效的资源分配。
应用基于屋顶线模型的性能分析来优化计算效率，并在各种工作负载中提供强大的 SLO 保证的推理性能。

作为这项使命的一部分，我们积极与行业领导者合作，推动用于 LLM 服务的开放、云原生解决方案。

“字节跳动一直是 Google 的卓越合作伙伴，通过 Working Group Serving 推动 Kubernetes 中 LLM 服务的标准化，并为 Gateway API Inference Extension 做出贡献。我们很高兴继续合作开发共享组件，这些组件将支持 AIBrix 和大规模推理平台” - Clayton Coleman，GKE 杰出工程师和推理主管

“vLLM 在全球范围内经历了爆炸式增长，成为 LLM 推理的基石。AIBrix 是一个有前景的项目，它建立在这个势头之上，提供强大的功能来生产化 vLLM，同时推动开源 LLM 推理的创新” - Robert Nishihara，Anyscale 联合创始人兼 Ray 联合创始人

探索更多

查看 https://github.com/vllm-project/aibrix 上的代码仓库，并深入阅读我们的博客文章，详细了解 AIBrix 的架构和关键功能。为了更深入地了解，请查阅我们在设计理念和结果方面的白皮书，并按照文档开始部署和集成，并加入 vLLM Slack 的 aibrix 频道与开发者讨论。

常见问题解答

AIBrix 与 vLLM 生产堆栈有何不同？

AIBrix 是字节跳动开源发布的版本，专注于大规模用例和云原生解决方案。生产堆栈由 UChicago LMCache 团队管理，是一个开放框架，欢迎所有人扩展、实验和贡献。您可以在此处查看生产堆栈的路线图。
AIBrix 是一个强大的 K8s 堆栈的实例化，并且已经在生产环境中运行了 6 个多月。生产堆栈从头开始实施，专注于迭代每个构建块，并结合社区的反馈和贡献。
生产堆栈的期望优势是利用内置的以 KV 缓存为中心的优化（传输、混合、路由），这在长上下文和预填充密集型工作负载中尤其有利。在短期内，生产堆栈计划利用 AIBrix 的组件。

AIBrix 是一个社区驱动的项目吗？

当然。在 vLLM 项目组织下开源它的目的是为了与实践者和研究人员展开协作。有许多增强领域正在计划中，核心开发者相信未来是开源的！

AIBrix 与其他云原生解决方案（如 KServe、KubeAI 等）有何不同？

AIBrix 提供与 vLLM 更原生的集成。通过仅考虑推理引擎进行设计，AIBrix 可以优先考虑快速模型加载、自动扩缩和 LoRA 管理等功能。