vLLM 博客
  • 2025 年 5 月 12 日

    推出 vLLM 硬件插件,来自昇腾 NPU 的最佳实践

  • 2025 年 4 月 23 日

    使用 vLLM 加速 RLHF,来自 OpenRLHF 的最佳实践

  • 2025 年 4 月 11 日

    Transformers 后端在 vLLM 中的集成

  • 2025 年 4 月 5 日

    vLLM 中的 Llama 4

  • 2025 年 2 月 24 日

    PTPC-FP8:提升 vLLM 在 AMD ROCm 上的性能

  • 2025 年 2 月 21 日

    推出 AIBrix:vLLM 的可扩展、高性价比控制平面

  • 2025 年 2 月 17 日

    使用 vLLM 进行分布式推理

  • 2025 年 1 月 27 日

    vLLM V1:vLLM 核心架构的重大升级

  • 2025 年 1 月 27 日

    在 Llama Stack 中引入 vLLM 推理提供者

  • 2025 年 1 月 21 日

    使用“vLLM production-stack”在 K8S 中实现 vLLM 的高性能和便捷部署

  • 2025 年 1 月 14 日

    vLLM 中的结构化解码:入门介绍

  • 2025 年 1 月 10 日

    vLLM 2024 回顾与 2025 展望

  • 2025 年 1 月 10 日

    轻松安装和开发 vLLM

  • 2024 年 10 月 23 日

    在 AMD MI300X 上服务 LLM:最佳实践

  • 2024 年 10 月 17 日

    推测性解码如何将 vLLM 性能提升至 2.8 倍

  • 2024 年 9 月 5 日

    vLLM v0.6.0:吞吐量提高 2.7 倍,延迟降低 5 倍

  • 2024 年 7 月 25 日

    vLLM 的开放治理和性能路线图

  • 2024 年 7 月 23 日

    宣布 vLLM 支持 Llama 3.1

  • 2023 年 11 月 14 日

    关于 vLLM 对比 DeepSpeed-FastGen 的说明

  • 2023 年 6 月 20 日

    vLLM:使用 PagedAttention 实现简单、快速、经济的 LLM 服务

订阅

  • © 2025. vLLM 团队。保留所有权利。

vLLM 是一个用于大型语言模型推理和服务的快速易用库。