vLLM 博客
  • 2026年2月3日

    推动 vLLM WideEP 和 Blackwell 上的大规模服务走向成熟(第一部分)

  • 2026年2月1日

    NVIDIA Blackwell 上的 GPT-OSS 性能优化:突破帕累托前沿

  • 2026年1月23日

    使用 vLLM-SR 在 AMD GPU 上构建混合模型(Mixture-of-Models)

  • 2026年1月8日

    深入了解 vLLM 的新 KV 卸载连接器:更智能的内存传输,实现推理吞吐量最大化

  • 2026年1月5日

    vLLM 语义路由 v0.1 Iris:第一个主要版本发布

  • 2026年1月2日

    vLLM Playground 简介:用于管理和与 vLLM 服务器交互的现代 Web 界面

  • 2025年12月27日

    发布 vllm.ai 网站及一些社区更新

  • 2025年12月19日

    vLLM-Omni 扩散缓存加速

  • 2025年12月17日

    vLLM 大规模服务:DeepSeek 在 H200 上通过 Wide-EP 达到 2.2k tok/s

  • 2025年12月16日

    AMD × vLLM 语义路由:共同构建系统智能

  • 2025年12月15日

    用于可扩展多模态模型服务的编码器解耦

  • 2025年12月15日

    在 vLLM 上使用 NVIDIA Nemotron 3 Nano 运行高效且准确的 AI 智能体

  • 2025年12月14日

    Token 级的真相:生产级 LLM 的实时幻觉检测

  • 2025年12月13日

    vLLM Router:一种面向大规模服务的高性能、感知 Prefill/Decode 的负载均衡器

  • 2025年12月13日

    深入探讨 Speculators v0.3.0 对 vLLM 投机采样训练的支持

  • 2025年12月9日

    推进 LLM 的低比特量化:AutoRound x LLM Compressor

  • 2025年12月3日

    将挂起和复杂的 GPU 核函数追踪至源代码

  • 2025年11月30日

    发布 vLLM-Omni:简单、快速且廉价的全模态模型服务

  • 2025年11月22日

    使用 Ray symmetric-run 简化多节点服务

  • 2025年11月20日

    使用插件系统构建整洁、可维护的 vLLM 修改

  • 2025年11月19日

    信号决策驱动架构:重塑大规模语义路由

  • 2025年11月19日

    Docker Model Runner 集成 vLLM 以实现高吞吐量推理

  • 2025年11月13日

    共享内存 IPC 缓存:加速 LLM 推理系统中的数据传输

  • 2025年11月11日

    使用 vLLM 在 Intel Arc Pro B 系列 GPU 上实现快速且经济的 LLM 服务

  • 2025年11月10日

    告别训练与推理不匹配:使用 vLLM 和 TorchTitan 实现位级一致的 On-Policy 强化学习

  • 2025年10月31日

    在 vLLM 上运行 NVIDIA Nemotron 多模态推理智能体

  • 2025年10月28日

    追求 100% 准确率:深入研究 vLLM 上 Kimi K2 工具调用的调试

  • 2025年10月27日

    从单体到模块化:使用可扩展 LoRA 扩展语义路由

  • 2025年10月26日

    使用 vLLM 睡眠模式实现零重载模型切换

  • 2025年10月23日

    vLLM 现已支持提供 NVIDIA Nemotron 服务

  • 2025年10月22日

    告别分词偏移:通过 OpenAI 兼容 API 返回 Token ID 在智能体强化学习中的重要性

  • 2025年10月16日

    vLLM TPU:支持 TPU 上 PyTorch 和 JAX 的全新统一后端

  • 2025年10月9日

    SemiAnalysis InferenceMAX:vLLM 与 NVIDIA 加速 Blackwell 推理

  • 2025年9月29日

    vLLM 中的 DeepSeek-V3.2-Exp:细粒度稀疏注意力机制实践

  • 2025年9月16日

    韩国首届 vLLM 见面会

  • 2025年9月11日

    vLLM 语义路由:LLM 推理的下一阶段

  • 2025年9月11日

    vLLM 现已支持 Qwen3-Next:极致效率的混合架构

  • 2025年9月5日

    服务于地理空间、视觉及更多领域:在 vLLM 中实现多模态输出处理

  • 2025年9月5日

    深入 vLLM:高吞吐量 LLM 推理系统的剖析

  • 2025年8月20日

    torch.compile 简介及其在 vLLM 中的工作原理

  • 2025年8月19日

    GLM-4.5 会逢 vLLM:为智能智能体而生

  • 2025年8月11日

    CUDA Core Dump:调试内存访问问题及其他问题的有效工具

  • 2025年8月5日

    vLLM 现已支持 gpt-oss

  • 2025年6月30日

    MiniMax-M1 混合架构会逢 vLLM:长上下文,快速推理

  • 2025年5月12日

    引入 vLLM 硬件插件,来自昇腾 NPU 的最佳实践

  • 2025年4月23日

    使用 vLLM 加速 RLHF,来自 OpenRLHF 的最佳实践

  • 2025年4月11日

    vLLM 中 Transformers 建模后端集成

  • 2025年4月5日

    vLLM 中的 Llama 4

  • 2025年2月24日

    PTPC-FP8:提升 vLLM 在 AMD ROCm 上的性能

  • 2025年2月21日

    AIBrix 简介:一个可扩展、经济高效的 vLLM 控制平面

  • 2025年2月17日

    使用 vLLM 进行分布式推理

  • 2025年1月27日

    vLLM V1:vLLM 核心架构的一次重大升级

  • 2025年1月27日

    在 Llama Stack 中引入 vLLM 推理提供者

  • 2025年1月21日

    使用 vLLM production-stack 在 K8S 中实现 vLLM 的高性能和易部署

  • 2025年1月14日

    vLLM 中的结构化解码:简明介绍

  • 2025年1月10日

    vLLM 2024 年度回顾与 2025 年愿景

  • 2025年1月10日

    轻松安装和开发 vLLM

  • 2024年10月23日

    在 AMD MI300X 上提供 LLM 服务:最佳实践

  • 2024年10月17日

    投机解码如何将 vLLM 性能提升高达 2.8 倍

  • 2024年9月5日

    vLLM v0.6.0:吞吐量提升 2.7 倍,延迟降低 5 倍

  • 2024年7月25日

    vLLM 的开放治理和性能路线图

  • 2024年7月23日

    宣布 vLLM 支持 Llama 3.1

  • 2023年11月14日

    关于 vLLM 对比 DeepSpeed-FastGen 的笔记

  • 2023年6月20日

    vLLM:利用 PagedAttention 实现简单、快速且廉价的 LLM 服务

订阅

  • © 2026. vLLM 团队。保留所有权利。

vLLM 是一个用于LLM推理和服务的快速易用库。