vLLM 语义路由器的早期版本依赖于基于分类的路由,这是一种直接的方法,将用户查询分类到 14 个 MMLU 领域类别之一,然后路由到相应的模型。虽然这在基本场景下有效,但在为企业构建生产级 AI 系统时,我们很快发现了它的局限性。

考虑这个真实场景:一位用户提问:“我需要紧急帮助审查我的身份验证代码中的一个安全漏洞。”基于分类的路由器会将其识别为“计算机科学”查询,并路由到一个通用的编码模型。但它忽略了关键的上下文信息:

  • 需要立即关注的紧急性信号
  • 需要专业知识和越狱防护的安全性敏感度
  • 受益于推理能力的代码审查意图
  • 需要仔细分析的身份验证复杂性

这一个例子就揭示了根本的限制:基于分类的路由只捕获了用户意图的一个维度——领域——而忽略了自然语言查询中嵌入的丰富的、多维度的信号。

今天,我们推出了信号-决策架构——一个对语义路由的彻底重构,它将路由能力从 14 个固定类别扩展到无限的智能路由决策。这一新架构结合了多维度信号提取、使用 AND/OR 操作符的灵活决策逻辑以及内置的插件编排,以提供生产就绪的语义智能。

问题所在:为什么基于分类的路由无法扩展

之前的 vLLM 语义路由器架构遵循一个简单的流水线:

User Prompt → MMLU Domain Classification → Model Selection

这种方法有几个根本性的局限,使其无法扩展以满足企业需求。

单维度分析

基于分类的路由只考虑查询的领域主题。它无法捕捉:

  • 紧急性信号:“紧急”、“立即”、“关键”
  • 安全敏感性:“漏洞”、“利用”、“泄露”
  • 意图类型:代码审查、架构设计、故障排除
  • 复杂性级别:简单 FAQ vs. 复杂推理任务
  • 合规性要求:PII 处理、监管约束

实际影响:一个关于“紧急患者数据泄露”的医疗查询被路由到医疗模型,但缺乏 PII 保护和安全过滤——可能违反 HIPAA 合规性。

固定类别限制

仅限于 14 个预定义的 MMLU 类别(数学、物理、计算机科学、商业等),这使得无法:

  • 为特定业务领域创建自定义类别
  • 在一个领域内定义细粒度的路由规则
  • 扩展到学术科目分类之外

实际影响:一个拥有 50 多个专业用例(法律合同、金融合规、医疗诊断、代码安全审计)的企业,无法在 14 个类别内表达其路由需求。

逻辑不灵活

无法组合多个条件或实现复杂的路由策略:

  • 不支持 AND/OR 逻辑:“仅当查询既紧急又与安全相关时,才路由到专家模型”
  • 当多个条件匹配时,没有基于优先级的选择
  • 不支持基于信号组合的条件化插件应用

实际影响:无法实现分层路由策略,例如“高优先级安全问题获得推理+越狱防护,而一般问题获得缓存响应。”

引入信号-决策架构

信号-决策架构通过将信号提取与路由决策分离,并引入一个带有内置插件编排的灵活决策引擎,从根本上重构了语义路由。

架构概览

新架构引入了三个关键创新:

  1. 多信号提取:同时捕获用户意图的多个维度
  2. 决策引擎:使用灵活的 AND/OR 逻辑和基于优先级的选择来组合信号
  3. 插件链:为缓存、安全和优化提供内置智能

完整的请求流程

核心概念

信号:多维度提示分析

信号-决策架构不再仅仅依赖领域分类,而是从每个用户查询中提取三种互补的信号类型。每种信号类型利用不同的人工智能/机器学习技术,并在路由决策过程中服务于不同的目的。

关键词信号:可解释的模式匹配

关键词信号使用基于正则表达式的模式匹配来检测用户查询中的特定术语或短语。这种方法提供了人类可解释的路由逻辑——你可以通过检查关键词轻松理解为什么一个查询匹配了某条规则。

技术方法:

  • 用于高效匹配的已编译正则表达式模式
  • 支持 AND/OR 布尔运算符
  • 区分大小写和不区分大小写模式
  • 无需模型推理(零机器学习开销)

关键优势 - 可解释性:与黑盒机器学习模型不同,关键词信号提供完全的透明度。在调试路由决策时,你可以精确地追溯是哪些关键词触发了哪些规则。这对于合规审计和解决生产问题至关重要。

用例:

  • 检测紧急性标记:“紧急”、“立即”、“尽快”、“关键”
  • 识别安全关键词:“漏洞”、“利用”、“泄露”、“CVE”
  • 标记合规术语:“HIPAA”、“GDPR”、“PII”、“机密”
  • 识别意图模式:“代码审查”、“架构设计”、“故障排除”

嵌入信号:可扩展的语义理解

嵌入信号使用神经嵌入模型来计算用户查询和候选短语之间的语义相似度。这种方法提供了可扩展的语义匹配,能够理解超越精确关键词匹配的意图。

技术方法:

  • 候选短语的预计算嵌入(离线)
  • 使用轻量级模型(例如,sentence-transformers)进行运行时查询嵌入
  • 使用可配置阈值的余弦相似度计算
  • 多种聚合策略:max(任意匹配)、mean(平均相似度)、any(基于阈值)

关键优势 - 可扩展性:基于嵌入的匹配可以高效地扩展到数千个候选短语。添加新的路由模式不需要重新训练模型——只需添加新的候选短语并计算它们的嵌入即可。这使得能够针对特定业务领域进行快速迭代和定制。

用例:

  • 意图理解:“我需要帮助” → “技术支持请求”
  • 释义匹配:“我该如何修复这个 bug?” ≈ “调试协助”
  • 跨语言路由:使用多语言嵌入,语义相似度可以跨语言工作
  • 模糊匹配:处理拼写错误、缩写和非正式语言

领域信号:数据集驱动的分类

领域信号使用在 MMLU 上训练的分类模型来识别用户查询的学术或专业领域。这种方法提供了数据集驱动的领域专业知识,并支持自定义领域扩展。

技术方法:

  • 在 MMLU 数据集(14 个基础类别)上微调的分类模型
  • 通过 LoRA 适配器支持自定义领域扩展
  • 针对跨多个领域的查询进行多标签分类
  • 领域预测的置信度评分

关键优势 - 通过 LoRA 实现可扩展性:虽然基础模型涵盖了 14 个 MMLU 类别,但企业可以训练轻量级的 LoRA 适配器来添加私有领域类别,而无需重新训练整个模型。例如:

  • 医疗保健:添加“医学影像”、“临床试验”、“药物研究”
  • 金融:添加“风险建模”、“算法交易”、“监管合规”
  • 法律:添加“合同法”、“知识产权”、“诉讼支持”

这使组织能够将其特定垂直领域的领域分类进行扩展,同时保持基础模型的一般知识。

用例:

  • 路由到特定领域的专家模型(数学查询 → 数学专家)
  • 应用适合领域的策略(医疗查询 → PII 保护)
  • 选择专门的知识库(法律查询 → 法律文档检索)
  • 触发特定领域的插件(代码查询 → 语法验证)

信号比较

信号类型 技术 可解释性 可扩展性 可扩展性
关键词 正则表达式匹配 高(透明规则) 中(手动模式) 手动添加
嵌入 神经嵌入 低(黑盒相似度) 高(数千个短语) 动态添加短语
领域 MMLU + LoRA 中(领域标签) 中(14+ 类别) 用于自定义领域的 LoRA 适配器

为什么需要三种信号类型?

这三种信号类型是互补的,而非冗余:

  • 关键词信号为已知模式提供快速、可解释的匹配。
  • 嵌入信号处理语义变化并能扩展到大型短语集。
  • 领域信号利用学术数据集并启用特定领域的专业知识。

通过将这三者结合起来,信号-决策架构能够同时捕获用户意图的多个维度,从而实现比任何单一信号类型都更为复杂的路由逻辑。

决策:灵活的路由逻辑

决策是核心路由规则,它使用 AND/OR 逻辑组合多个信号,以确定模型选择和插件配置。

决策结构

每个决策包括:

信号组合:使用 AND/OR 逻辑组合多个信号条件

  • AND:所有条件必须匹配(高精度)
  • OR:任一条件匹配即可(高召回率)

优先级:用于在多个决策匹配时解决冲突的整数值

  • 优先级越高者获胜
  • 支持分层路由策略

模型引用:指定使用哪个模型(以及可选的 LoRA 适配器)

  • 支持带有特定领域 LoRA 适配器的基础模型
  • 配置推理模式和努力程度

插件链:要应用插件的有序列表

  • 用于成本优化的语义缓存
  • 用于安全的越狱检测
  • 用于合规的 PII 保护
  • 用于行为控制的系统提示注入
  • 用于元数据传播的 Header 修改

决策评估流程

当多个决策匹配时,系统选择优先级最高的那个。如果没有决策匹配,系统将回退到默认模型。

插件:内置智能

该架构包括五个内置插件,可以按决策进行配置:

插件 目的 关键特性
semantic-cache 缓存相似查询 可配置的相似度阈值,成本优化
jailbreak 检测提示注入攻击 基于阈值的检测,请求拦截
pii 保护敏感信息 编辑/哈希/掩码模式,GDPR/HIPAA 合规
system_prompt 注入自定义指令 替换或插入模式,角色定制
header_mutation 修改 HTTP 头部 添加/更新/删除头部,元数据传播

插件按照配置的顺序执行,每个插件都能修改请求、阻止执行或为下游处理添加元数据。

插件链执行流程

从 14 个扩展到无限个

信号-决策架构消除了固定类别的根本限制。以下是它的扩展方式:

传统方法(受限)

14 MMLU Categories → 14 Routing Rules → 14 Model Selections

限制:

  • 无法创建自定义类别
  • 无法组合多个条件
  • 无法对每条规则应用不同策略
  • 无法超越领域分类进行扩展

信号-决策方法(无限制)

3 Signal Types × N Conditions × AND/OR Logic → Unlimited Decisions

能力:

  • 创建无限的自定义路由规则
  • 用灵活的逻辑组合多个信号
  • 为每个决策应用独特的插件链
  • 扩展至企业级复杂性

可扩展性示例

考虑一个企业 IT 支持系统:

传统路由:限于 14 个基于领域的路由

  • “计算机科学” → 代码模型
  • “工程学” → 工程模型
  • (以及其他 12 个固定类别)

信号-决策路由:数百条专业化路由

  • 紧急 + 安全 + 计算机科学 → 安全专家模型 + 推理 + 越狱防护
  • 代码审查 + 高复杂度 → 架构模型 + 推理
  • FAQ + 通用 → 缓存模型 + 语义缓存
  • 医疗 + 检测到 PII → 医疗专家模型 + PII 保护 + 免责声明
  • 法律 + 机密 → 法律专家模型 + PII 哈希 + 审计头
  • (以及数百种其他自定义组合)

每个决策都可以有独特的模型选择、推理配置和插件链——从而实现大规模的细粒度控制。

Kubernetes 原生设计

信号-决策架构专为云原生环境设计,包含两个自定义资源定义(CRD):

完整示例:企业 IT 支持系统

让我们通过一个完整的示例来演示 IntelligentPool 和 IntelligentRoute 如何协同工作,构建一个企业 IT 支持路由系统。

IntelligentPool:定义模型池

首先,我们定义可用的模型及其 LoRA 适配器:

该模型池定义了:

  • 一个基础模型 “qwen3”,带有 4 个专业化的 LoRA 适配器
  • 一个用于非专业查询的备用 “qwen3” 模型
  • 每个模型的推理族配置

IntelligentRoute:定义路由逻辑

接下来,我们定义包含多信号提取的路由决策:

此配置展示了:

多信号提取:

  • 3 个关键词信号(紧急性、安全性、代码审查)
  • 2 个嵌入信号(技术支持、架构设计)
  • 1 个领域信号(计算机科学)

分层决策逻辑:

  • 优先级 100:紧急 + 安全 + 计算机科学 → 安全专家模型 + 高级推理 + 越狱防护 + PII 保护
  • 优先级 80:代码审查 + 计算机科学 → 代码审查模型 + 中级推理 + 缓存 + 自定义提示
  • 优先级 60:架构设计 + 计算机科学 → 架构专家模型 + 高级推理 + 缓存
  • 优先级 40:通用支持 → 基础模型 + 积极缓存

插件编排:

  • 安全关键查询获得越狱检测和 PII 保护
  • 代码审查获得语义缓存和自定义系统提示
  • 架构查询获得更长的缓存 TTL(2小时 vs 1小时)
  • 通用查询获得积极缓存(0.90 阈值,4小时 TTL)

回退行为:

  • 如果没有决策匹配,则路由到默认模型(“general-assistant”)
  • 如果多个决策匹配,则选择最高优先级

动态配置流程

Kubernetes 原生设计支持:

  • 零停机配置更新
  • 用于变更管理的 GitOps 工作流
  • 多集群部署策略
  • 基于命名空间的隔离和 RBAC

真实世界应用

企业 IT 支持

挑战:根据紧急性、技术领域和安全敏感性路由支持工单。

解决方案:使用基于优先级的多层决策

  • 优先级 100:紧急 + 安全 + 计算机科学 → 安全专家模型 + 推理 + 越狱防护
  • 优先级 80:技术支持 + 调试 → 代码专家模型 + 语义缓存
  • 优先级 60:一般问题 → 通用模型 + 积极缓存

结果:合适的模型选择、通过缓存实现成本优化、对敏感问题进行安全保护。

医疗保健平台

挑战:HIPAA 合规要求 PII 保护和医疗免责声明。

解决方案:基于领域的路由,配备强制性合规插件

  • 健康领域 → 医疗专家模型 + PII 编辑 + 免责声明提示 + 审计头

结果:自动 PII 保护、一致的免责声明、用于合规的审计追踪。

金融服务

挑战:多层安全,包括 PII 保护、越狱检测和成本优化。

解决方案:为金融查询提供全面的插件链

  • 经济学领域 → 金融专家模型 + 越狱防护 + PII 哈希 + 免责声明 + 缓存 + 合规头

结果:企业级安全、法规遵从、成本效益。

教育平台

挑战:基于学科和学习意图的个性化学习体验。

解决方案:基于意图的路由,定制化教学风格

  • 数学 + 学习意图 → 数学专家模型 + 推理 + 耐心导师提示 + 缓存
  • 科学 + 教程 → 科学专家模型 + 吸引人的教育者提示

结果:个性化的教学方法、针对复杂主题的适当推理、成本优化。

代码助手

挑战:不同复杂程度需要不同的模型能力。

解决方案:复杂度感知的路由,带推理控制

  • 架构设计 → 推理模型 + 高努力度 + 复杂度头
  • 代码审查 → 代码专家模型 + 中等推理 + 缓存
  • 简单问题 → 代码专家模型 + 仅缓存

结果:最优模型选择、经济高效的推理使用、对简单查询的快速响应。

未来路线图

信号-决策架构为未来在多个维度的增强提供了基础:

路由核心性能优化

用于关键词匹配的基数树(Radix Tree):用基数树数据结构替换基于正则表达式的关键词匹配,以实现对数千个关键词模式的更快匹配。这将使企业能够定义 10,000+ 条关键词规则并保持一致的性能。

用于嵌入搜索的 HNSW 索引:实现分层可导航小世界(HNSW)图,用于嵌入空间中的近似最近邻搜索。这将显著提高嵌入信号的性能,同时支持数百万个候选短语。

用于仅解码模型的并行 LoRA:在解码阶段启用多个 LoRA 适配器的并行执行,允许单个基础模型同时服务于多个专业领域。这将减少模型切换开销,并提高多租户部署的吞吐量。

功能增强

可视化配置控制台:基于 Web 的 UI,用于创建和管理决策,无需编辑 YAML,并具有实时验证和测试功能。

自定义插件框架:用于开发自定义插件的 SDK,并提供社区市场,使企业能够构建特定领域的智能层。

高级分析:实时监控决策性能、信号有效性和成本优化机会,并提供由机器学习驱动的建议。

通过多轮对话进行模型评估:通过多轮对话评估实现智能模型选择。系统自动让多个候选模型并行进行对话,使用“LLM 即评委”(LLM-as-a-Judge)来评估响应质量,维度包括连贯性、相关性、安全性和领域专业知识。这使得能够基于实际模型性能而非静态规则进行动态路由优化。

意图感知的内部/外部模型选择:根据意图分析,在内部私有模型和外部 API(OpenAI, Anthropic 等)之间进行智能路由。敏感数据和专有信息自动路由到内部模型以保护隐私和合规,而一般查询则利用外部 API 获取更广泛的知识。成本、延迟和合规要求会根据查询特性进行动态平衡。

结论

信号-决策架构代表了我们思考语义路由方式的根本性转变。通过从固定分类转向灵活的基于信号的决策,我们实现了:

无限可扩展性:从 14 个类别到无限的自定义路由规则

多维度智能:同时捕获关键词、嵌入和领域信号

灵活逻辑:使用 AND/OR 操作符和基于优先级的选择来组合信号

内置安全性:集成了用于越狱检测、PII 保护和合规的插件

云原生设计:Kubernetes CRD,支持动态配置和零停机更新

无论您是在构建企业级 AI 网关、多租户 SaaS 平台,还是行业特定的 AI 助手,信号-决策架构都为生产部署提供了所需的可扩展性、灵活性和智能。

开始使用

准备好尝试信号-决策路由了吗?

加入我们的社区,分享反馈,并向其他正在大规模构建智能路由系统的用户学习。