vLLM 语义路由器：LLM 推理的新阶段

行业现状：推理并非越多越好

在过去的一年中，混合推理和自动路由已逐渐成为大模型基础设施进步的标志——业界争论的焦点已从原始规模转向单 token 效率、延迟控制和计算资源的定向使用。

以 GPT-5 为例：其突出的创新不在于参数的庞大规模，而在于其路由策略和基于配额的推理机制。

这代表了一种更广泛的原则，即“任务感知型计算资源分配”——推理过程中消耗的每一个 token 都必须贡献有意义的价值，而不仅仅是被消耗掉。

类似的想法也出现在其他系统中：

趋势很明显：未来的推理系统将由选择性和智能性来定义，而不仅仅是模型的大小。

为顺应这一转变，vLLM 语义路由器为高效的 vLLM 推理引擎提供了一个开源的、能够感知意图的路由层。

vLLM 能够实现可扩展的 LLM 服务，但缺乏围绕推理的语义决策能力。开发者面临一个权衡：

语义路由器通过对查询进行语义分类并进行适当路由，填补了这一空白，从而在需要时提供准确的结果，在不需要推理时则保证了效率。

该系统包含四大支柱：

在试验中，该设计实现了：

在商业和经济领域，准确率的提升超过了 20%。

有两个技术限制需要重点解决：

推理预算成本
无限制的推理会增加冷启动延迟和资源使用。如果没有动态控制，简单的查询可能会过度消耗 token，而关键查询在需要时可能无法获得深度推理。像 TTFT 和 p95 延迟这样的服务等级目标（SLO）是必要的——并且可能需要在推理过程中进行调整。
工具调用限制
增加更多工具（即“工具目录膨胀”）或更长的工具输出会大幅降低准确率。路由器必须对工具进行预过滤，并保持工具目录的精简。

语义路由器源于整个开源社区的贡献：

我们的目标是：通过以下方式为开源 LLM 提供推理加速

你可以在 GitHub 上找到该项目。目前的重点是一个工作组和已规划的 v0.1 路线图。

目前，ModernBERT 在路由器内部运行以进行分类，尚未由 vLLM 提供服务。然而，未来的工作目标是使分类器——以及其他可能的嵌入模型——变得可插拔，从而允许与 vLLM 托管的模型或外部嵌入服务集成。

这一能力将增强语义缓存，并使推理定制更加顺畅。

v0.1 里程碑将扩展项目的技术能力：

该领域正从“我们能否运行推理？”成熟到“如何让推理更智能？”

展望未来，那些能够即时调整推理策略而无需手动切换的系统，将在效率、延迟和可持续性方面处于领先地位。