vLLM 博客
  • 2025年11月30日

    发布 vLLM-Omni:轻松、快速、经济的全模态模型服务

  • 2025年11月22日

    使用 Ray 对称运行(symmetric-run)简化多节点服务

  • 2025年11月20日

    使用插件系统构建整洁、可维护的 vLLM 修改

  • 2025年11月19日

    信号-决策驱动架构:大规模重塑语义路由

  • 2025年11月19日

    Docker Model Runner 集成 vLLM 实现高吞吐量推理

  • 2025年11月13日

    共享内存 IPC 缓存:加速 LLM 推理系统中的数据传输

  • 2025年11月11日

    利用 vLLM 在英特尔 Arc Pro B 系列 GPU 上实现快速且经济实惠的 LLM 服务

  • 2025年11月10日

    告别训练-推理不匹配:利用 vLLM 和 TorchTitan 实现比特级一致的在线强化学习

  • 2025年10月31日

    在 vLLM 上运行支持多模态推理的 NVIDIA Nemotron 智能体

  • 2025年10月28日

    追求 100% 准确率:深入探究在 vLLM 上调试 Kimi K2 工具调用

  • 2025年10月27日

    从单体到模块化:使用可扩展 LoRA 扩展语义路由

  • 2025年10月26日

    利用 vLLM 睡眠模式实现模型零重载切换

  • 2025年10月23日

    现已支持使用 vLLM 服务 NVIDIA Nemotron

  • 2025年10月22日

    告别重分词漂移:在智能体强化学习中通过 OpenAI 兼容 API 返回 Token ID 至关重要

  • 2025年10月16日

    vLLM TPU:一个支持在 TPU 上运行 PyTorch 和 JAX 的全新统一后端

  • 2025年10月9日

    SemiAnalysis InferenceMAX:vLLM 与 NVIDIA 加速 Blackwell 推理

  • 2025年9月29日

    DeepSeek-V3.2-Exp 在 vLLM 中的应用:细粒度稀疏注意力实践

  • 2025年9月16日

    韩国首届 vLLM 见面会

  • 2025年9月11日

    vLLM 语义路由器:LLM 推理的下一阶段

  • 2025年9月11日

    vLLM 现已支持 Qwen3-Next:极致高效的混合架构

  • 2025年9月5日

    服务于地理空间、视觉等领域:在 vLLM 中实现多模态输出处理

  • 2025年9月5日

    深入 vLLM:高吞吐量 LLM 推理系统剖析

  • 2025年8月20日

    torch.compile 简介及其与 vLLM 的协作方式

  • 2025年8月19日

    GLM-4.5 与 vLLM 的碰撞:为智能体而生

  • 2025年8月11日

    CUDA 核心转储:调试内存访问问题及其他问题的有效工具

  • 2025年8月5日

    vLLM 现已支持 gpt-oss

  • 2025年6月30日

    MiniMax-M1 混合架构与 vLLM 的结合:长上下文,快推理

  • 2025年5月12日

    推出 vLLM 硬件插件,源自昇腾 NPU 的最佳实践

  • 2025年4月23日

    使用 vLLM 加速 RLHF,源自 OpenRLHF 的最佳实践

  • 2025年4月11日

    vLLM 中 Transformers 建模后端的集成

  • 2025年4月5日

    Llama 4 在 vLLM 中的应用

  • 2025年2月24日

    PTPC-FP8:在 AMD ROCm 上提升 vLLM 性能

  • 2025年2月21日

    推出 AIBrix:一个可扩展、高性价比的 vLLM 控制平面

  • 2025年2月17日

    使用 vLLM 进行分布式推理

  • 2025年1月27日

    vLLM V1:vLLM 核心架构的一次重大升级

  • 2025年1月27日

    在 Llama Stack 中引入 vLLM 推理提供程序

  • 2025年1月21日

    使用 vLLM production-stack 在 K8S 中实现 vLLM 的高性能与轻松部署

  • 2025年1月14日

    vLLM 中的结构化解码:简明入门

  • 2025年1月10日

    vLLM 2024 年回顾与 2025 年展望

  • 2025年1月10日

    轻松安装和开发 vLLM

  • 2024年10月23日

    在 AMD MI300X 上服务 LLM:最佳实践

  • 2024年10月17日

    推测解码如何将 vLLM 性能提升高达 2.8 倍

  • 2024年9月5日

    vLLM v0.6.0:吞吐量提升 2.7 倍,延迟降低 5 倍

  • 2024年7月25日

    vLLM 的开放治理与性能路线图

  • 2024年7月23日

    宣布 vLLM 支持 Llama 3.1

  • 2023年11月14日

    关于 vLLM 与 DeepSpeed-FastGen 的对比说明

  • 2023年6月20日

    vLLM:利用 PagedAttention 实现简单、快速、经济的 LLM 服务

订阅

  • © 2025. vLLM 团队。保留所有权利。

vLLM 是一个用于LLM推理和服务的快速易用库。