-
推动 vLLM WideEP 和 Blackwell 上的大规模服务走向成熟(第一部分)
-
NVIDIA Blackwell 上的 GPT-OSS 性能优化:突破帕累托前沿
-
使用 vLLM-SR 在 AMD GPU 上构建混合模型(Mixture-of-Models)
-
深入了解 vLLM 的新 KV 卸载连接器:更智能的内存传输,实现推理吞吐量最大化
-
vLLM 语义路由 v0.1 Iris:第一个主要版本发布
-
vLLM Playground 简介:用于管理和与 vLLM 服务器交互的现代 Web 界面
-
发布 vllm.ai 网站及一些社区更新
-
vLLM-Omni 扩散缓存加速
-
vLLM 大规模服务:DeepSeek 在 H200 上通过 Wide-EP 达到 2.2k tok/s
-
AMD × vLLM 语义路由:共同构建系统智能
-
用于可扩展多模态模型服务的编码器解耦
-
在 vLLM 上使用 NVIDIA Nemotron 3 Nano 运行高效且准确的 AI 智能体
-
Token 级的真相:生产级 LLM 的实时幻觉检测
-
vLLM Router:一种面向大规模服务的高性能、感知 Prefill/Decode 的负载均衡器
-
深入探讨 Speculators v0.3.0 对 vLLM 投机采样训练的支持
-
推进 LLM 的低比特量化:AutoRound x LLM Compressor
-
将挂起和复杂的 GPU 核函数追踪至源代码
-
发布 vLLM-Omni:简单、快速且廉价的全模态模型服务
-
使用 Ray symmetric-run 简化多节点服务
-
使用插件系统构建整洁、可维护的 vLLM 修改
-
信号决策驱动架构:重塑大规模语义路由
-
Docker Model Runner 集成 vLLM 以实现高吞吐量推理
-
共享内存 IPC 缓存:加速 LLM 推理系统中的数据传输
-
使用 vLLM 在 Intel Arc Pro B 系列 GPU 上实现快速且经济的 LLM 服务
-
告别训练与推理不匹配:使用 vLLM 和 TorchTitan 实现位级一致的 On-Policy 强化学习
-
在 vLLM 上运行 NVIDIA Nemotron 多模态推理智能体
-
追求 100% 准确率:深入研究 vLLM 上 Kimi K2 工具调用的调试
-
从单体到模块化:使用可扩展 LoRA 扩展语义路由
-
使用 vLLM 睡眠模式实现零重载模型切换
-
vLLM 现已支持提供 NVIDIA Nemotron 服务
-
告别分词偏移:通过 OpenAI 兼容 API 返回 Token ID 在智能体强化学习中的重要性
-
vLLM TPU:支持 TPU 上 PyTorch 和 JAX 的全新统一后端
-
SemiAnalysis InferenceMAX:vLLM 与 NVIDIA 加速 Blackwell 推理
-
vLLM 中的 DeepSeek-V3.2-Exp:细粒度稀疏注意力机制实践
-
韩国首届 vLLM 见面会
-
vLLM 语义路由:LLM 推理的下一阶段
-
vLLM 现已支持 Qwen3-Next:极致效率的混合架构
-
服务于地理空间、视觉及更多领域:在 vLLM 中实现多模态输出处理
-
深入 vLLM:高吞吐量 LLM 推理系统的剖析
-
torch.compile 简介及其在 vLLM 中的工作原理
-
GLM-4.5 会逢 vLLM:为智能智能体而生
-
CUDA Core Dump:调试内存访问问题及其他问题的有效工具
-
vLLM 现已支持 gpt-oss
-
MiniMax-M1 混合架构会逢 vLLM:长上下文,快速推理
-
引入 vLLM 硬件插件,来自昇腾 NPU 的最佳实践
-
使用 vLLM 加速 RLHF,来自 OpenRLHF 的最佳实践
-
vLLM 中 Transformers 建模后端集成
-
vLLM 中的 Llama 4
-
PTPC-FP8:提升 vLLM 在 AMD ROCm 上的性能
-
AIBrix 简介:一个可扩展、经济高效的 vLLM 控制平面
-
使用 vLLM 进行分布式推理
-
vLLM V1:vLLM 核心架构的一次重大升级
-
在 Llama Stack 中引入 vLLM 推理提供者
-
使用 vLLM production-stack 在 K8S 中实现 vLLM 的高性能和易部署
-
vLLM 中的结构化解码:简明介绍
-
vLLM 2024 年度回顾与 2025 年愿景
-
轻松安装和开发 vLLM
-
在 AMD MI300X 上提供 LLM 服务:最佳实践
-
投机解码如何将 vLLM 性能提升高达 2.8 倍
-
vLLM v0.6.0:吞吐量提升 2.7 倍,延迟降低 5 倍
-
vLLM 的开放治理和性能路线图
-
宣布 vLLM 支持 Llama 3.1
-
关于 vLLM 对比 DeepSpeed-FastGen 的笔记
-
vLLM:利用 PagedAttention 实现简单、快速且廉价的 LLM 服务