vLLM 博客
  • 2025年6月30日

    MiniMax-M1 混合架构携手 vLLM:长上下文,快推理

  • 2025年5月12日

    推出 vLLM 硬件插件,来自昇腾NPU的最佳实践

  • 2025年4月23日

    使用 vLLM 加速 RLHF,来自 OpenRLHF 的最佳实践

  • 2025年4月11日

    Transformers 后端在 vLLM 中的集成

  • 2025年4月5日

    vLLM 中的 Llama 4

  • 2025年2月24日

    PTPC-FP8:在 AMD ROCm 上提升 vLLM 性能

  • 2025年2月21日

    推出 AIBrix:一个可扩展、经济高效的 vLLM 控制平面

  • 2025年2月17日

    使用 vLLM 进行分布式推理

  • 2025年1月27日

    vLLM V1:vLLM 核心架构的一次重大升级

  • 2025年1月27日

    在 Llama Stack 中推出 vLLM 推理提供程序

  • 2025年1月21日

    使用“vLLM production-stack”在 K8S 中高性能轻松部署 vLLM

  • 2025年1月14日

    vLLM 中的结构化解码:简明入门

  • 2025年1月10日

    vLLM 2024 年回顾与 2025 年展望

  • 2025年1月10日

    轻松安装和开发 vLLM

  • 2024年10月23日

    在 AMD MI300X 上提供 LLM 服务:最佳实践

  • 2024年10月17日

    投机解码如何将 vLLM 性能提升高达 2.8 倍

  • 2024年9月5日

    vLLM v0.6.0:吞吐量提升 2.7 倍,延迟降低 5 倍

  • 2024年7月25日

    vLLM 的开放治理与性能路线图

  • 2024年7月23日

    宣布 vLLM 支持 Llama 3.1

  • 2023年11月14日

    关于 vLLM 对比 DeepSpeed-FastGen 的说明

  • 2023年6月20日

    vLLM:借助 PagedAttention 实现简单、快速且经济的 LLM 服务

订阅

  • © 2025. vLLM 团队。保留所有权利。

vLLM 是一个用于LLM推理和服务的快速易用库。