-
发布 vLLM-Omni:轻松、快速、经济的全模态模型服务
-
使用 Ray 对称运行(symmetric-run)简化多节点服务
-
使用插件系统构建整洁、可维护的 vLLM 修改
-
信号-决策驱动架构:大规模重塑语义路由
-
Docker Model Runner 集成 vLLM 实现高吞吐量推理
-
共享内存 IPC 缓存:加速 LLM 推理系统中的数据传输
-
利用 vLLM 在英特尔 Arc Pro B 系列 GPU 上实现快速且经济实惠的 LLM 服务
-
告别训练-推理不匹配:利用 vLLM 和 TorchTitan 实现比特级一致的在线强化学习
-
在 vLLM 上运行支持多模态推理的 NVIDIA Nemotron 智能体
-
追求 100% 准确率:深入探究在 vLLM 上调试 Kimi K2 工具调用
-
从单体到模块化:使用可扩展 LoRA 扩展语义路由
-
利用 vLLM 睡眠模式实现模型零重载切换
-
现已支持使用 vLLM 服务 NVIDIA Nemotron
-
告别重分词漂移:在智能体强化学习中通过 OpenAI 兼容 API 返回 Token ID 至关重要
-
vLLM TPU:一个支持在 TPU 上运行 PyTorch 和 JAX 的全新统一后端
-
SemiAnalysis InferenceMAX:vLLM 与 NVIDIA 加速 Blackwell 推理
-
DeepSeek-V3.2-Exp 在 vLLM 中的应用:细粒度稀疏注意力实践
-
韩国首届 vLLM 见面会
-
vLLM 语义路由器:LLM 推理的下一阶段
-
vLLM 现已支持 Qwen3-Next:极致高效的混合架构
-
服务于地理空间、视觉等领域:在 vLLM 中实现多模态输出处理
-
深入 vLLM:高吞吐量 LLM 推理系统剖析
-
torch.compile 简介及其与 vLLM 的协作方式
-
GLM-4.5 与 vLLM 的碰撞:为智能体而生
-
CUDA 核心转储:调试内存访问问题及其他问题的有效工具
-
vLLM 现已支持 gpt-oss
-
MiniMax-M1 混合架构与 vLLM 的结合:长上下文,快推理
-
推出 vLLM 硬件插件,源自昇腾 NPU 的最佳实践
-
使用 vLLM 加速 RLHF,源自 OpenRLHF 的最佳实践
-
vLLM 中 Transformers 建模后端的集成
-
Llama 4 在 vLLM 中的应用
-
PTPC-FP8:在 AMD ROCm 上提升 vLLM 性能
-
推出 AIBrix:一个可扩展、高性价比的 vLLM 控制平面
-
使用 vLLM 进行分布式推理
-
vLLM V1:vLLM 核心架构的一次重大升级
-
在 Llama Stack 中引入 vLLM 推理提供程序
-
使用 vLLM production-stack 在 K8S 中实现 vLLM 的高性能与轻松部署
-
vLLM 中的结构化解码:简明入门
-
vLLM 2024 年回顾与 2025 年展望
-
轻松安装和开发 vLLM
-
在 AMD MI300X 上服务 LLM:最佳实践
-
推测解码如何将 vLLM 性能提升高达 2.8 倍
-
vLLM v0.6.0:吞吐量提升 2.7 倍,延迟降低 5 倍
-
vLLM 的开放治理与性能路线图
-
宣布 vLLM 支持 Llama 3.1
-
关于 vLLM 与 DeepSpeed-FastGen 的对比说明
-
vLLM:利用 PagedAttention 实现简单、快速、经济的 LLM 服务