AMD × vLLM 语义路由器:共同构建系统智能
引言
在过去的几个月里,AMD 和 vLLM SR 团队一直致力于将 vLLM 语义路由器 (VSR) 引入 AMD GPU——这不仅是一项性能优化,更是我们思考 AI 系统架构方式的根本性转变。
AMD 一直是 vLLM 社区的长期技术合作伙伴,从在 AMD GPU 和 ROCm™ 软件上加速 vLLM 推理引擎,到如今共同构建 AI 堆栈的下一层:混合模型 (MoM) 系统的智能路由和治理。
随着 AI 从单一模型转向多模型架构,挑战不再是“你的模型有多大”,而是你如何智能且安全地协调众多模型。VSR 旨在成为这个新时代的智能控制平面——根据语义理解做出路由决策,执行安全策略,并在系统扩展到 AGI 级别能力时保持信任。

此次合作聚焦于三个战略支柱
- 基于信号的路由:针对 Multi-LoRA 和多模型部署,使用关键词匹配、领域分类、语义相似性和事实核查进行智能请求路由
- 跨实例智能:通过集中式响应存储和语义缓存,实现 vLLM 实例之间的共享状态和优化
- 护栏与治理:从 PII 检测和越狱预防到幻觉检测和对齐强制执行的企业级安全
我们与 AMD 合作,正在构建 VSR,使其在 AMD GPU 上高效运行,同时为值得信赖、可治理的 AI 基础设施建立新标准。
转变:从单一模型到混合模型
在混合模型的世界中,企业 AI 堆栈通常包括
- 用于分类、路由和执行策略的路由器 SLM(小型语言模型)
- 多个 LLM 和特定领域模型(例如,代码、金融、医疗保健、法律)
- 工具、RAG 管道、向量搜索和业务系统
如果没有强大的路由层,这将成为一个不透明且脆弱的网格。AMD × VSR 合作旨在使路由成为一个一流的、GPU 加速的基础设施组件——而不是服务之间随意拼接的脚本。
VSR 核心能力
1. 针对 Multi-LoRA 部署的基于信号的路由
VSR 提供多种路由策略以匹配不同的用例
- 基于关键词的路由:简单的模式匹配,实现快速、确定性路由
- 领域分类:使用训练好的分类器进行意图感知适配器选择
- 基于嵌入的语义相似性:基于语义理解的细微路由
- 事实核查和验证路由:将高风险查询路由到专门的验证管道
2. 跨实例智能
VSR 可以在所有 vLLM 实例之间实现共享状态和优化
- 响应 API:集中式响应存储,实现有状态的多轮对话
- 语义缓存:通过跨实例向量相似性匹配显著减少令牌数量
3. 企业级护栏
从单轮到多轮对话,VSR 提供
- PII 检测:防止敏感信息泄露
- 越狱预防:阻止恶意提示注入尝试
- 幻觉检测:验证关键领域响应的可靠性
- 超级对齐:确保 AI 系统在向 AGI 能力扩展时与人类价值观和意图保持一致
在 AMD GPU 上运行 VSR:两条部署路径
我们的近期目标是面向执行的:交付在 AMD GPU 上高效运行的生产级 VSR 解决方案。我们正在构建两条互补的部署路径

路径 1:基于 vLLM 在 AMD GPU 上进行推理
使用 AMD GPU 上的 vLLM 引擎,我们运行
路由器 SLM 用于
- 任务和意图分类
- 风险评分和安全门控
- 工具和工作流选择
LLM 和专用模型 用于
- 通用协助
- 特定领域任务(金融、法律、代码、医疗保健)
VSR 作为决策结构位于其之上,根据语义相似性、业务元数据、延迟约束和合规性要求执行跨模型和端点的动态路由。
AMD GPU 提供运行路由器 SLM + 多个 LLM 在同一集群中所需的吞吐量和内存占用,支持高 QPS 工作负载和稳定的延迟——而不仅仅是单次演示。
路径 2:基于 ONNX 的轻量级路由
并非所有路由都需要完整的推理堆栈。对于系统“前端”的超高频、延迟敏感阶段,我们正在实现
- 将路由器 SLM 导出到 ONNX
- 通过 ONNX Runtime 在 AMD GPU 上运行它们
- 将复杂的生成工作转发给 vLLM 或其他后端 LLM
这条轻量级路径专为以下目的设计
- 漏斗前端的流量分类和分流
- 大规模策略评估和离线实验
- 希望标准化使用 AMD GPU,同时保持模型提供商灵活的企业
迈向语义路由器的下一阶段
当我们首次构建 vLLM 语义路由器时,目标是清晰而实用的:智能模型选择——根据任务类型、成本约束和性能要求将请求路由到正确的模型。

vLLM 引擎提供基础——稳定高效地运行大型模型。vLLM 语义路由器提供调度器——将请求分派到正确的能力。
但是,随着 AI 系统向 AGI 级别能力迈进,这种框架感觉不完整。这就像只讨论发动机效率而不提及刹车、交通法规或安全系统一样。
真正的挑战不是让模型更强大——而是在它们变得更强大时保持控制。
从模型指挥官到智能判断者
与 AMD 合作,我们对语义路由器的演变有了不同的看法。它的潜力不仅在于“路由”,而在于治理——从一个交通指挥官转变为 AGI 时代的智能控制平面。
这种转变改变了我们对合作的看法。我们不仅是在 AMD 硬件上优化吞吐量和延迟。我们正在为 AI 系统构建一个宪法层——一个由责任而非仅仅功能定义的层。
必须确保的三条控制生命线
当我们在 AMD 基础设施上构建 VSR 时,我们围绕三个关键控制点进行设计,这些控制点决定了 AI 系统在大规模运行时是否值得信赖

1. 世界输出(行动)
强大模型最危险的能力不是推理——而是执行。每一个改变世界的行动(工具调用、数据库写入、API 调用、配置更改)都必须在执行前通过外部检查点。
借助 AMD GPU,我们可以在生产规模下实时运行这些检查点——评估风险、执行策略和记录决策,而不会成为瓶颈。
2. 世界输入(输入)
外部输入默认情况下是不可信的。网页、检索结果、上传文件和插件返回都可能带有提示注入、数据投毒或特权升级尝试。
AMD 基础设施上的 VSR 在数据到达模型之前提供边境检查——运行分类器、清理器和验证检查作为第一道防线,而不是事后才考虑。
3. 长期状态(内存/状态)
最难修复的故障不是错误的答案——而是被写入长期内存、系统状态或自动化工作流的错误答案。
我们的合作重点是使状态管理成为一个首要关注点:谁可以写入,可以写入什么,如何撤销,以及如何隔离污染。AMD 的 GPU 基础设施使我们能够运行持续验证和回滚机制,随着时间的推移保持状态的可靠性。
终极问题
当这三条生命线得到保障时,语义路由器就不再仅仅是一个模型选择器。它成为一个根本问题的答案
我们如何将对齐从训练时期的愿望转变为运行时的制度?
这正是 AMD × vLLM 语义路由器合作的真正意义:不仅要构建更快的路由,还要构建值得信赖、可治理的 AI 基础设施,使其能够安全地扩展到 AGI 级别能力。
长期愿景和正在进行的工作
我们与 AMD 的合作不仅限于近期部署,还旨在为下一代 AI 基础设施奠定基础。我们正在开展多项长期计划
在 AMD GPU 上训练下一代路由器模型
作为一个长期目标,我们旨在探索在 AMD GPU 上训练一个基于纯编码器的下一代路由器模型,该模型针对语义路由、检索增强生成(RAG)和安全分类进行了优化。
虽然最近的编码器模型(例如 ModernBERT)表现出强大的性能,但它们在上下文长度、多语言覆盖和与新兴长上下文注意力技术的对齐方面仍然存在限制。这项工作专注于利用 AMD 硬件提升编码器能力,特别是针对长上下文、高吞吐量的表示学习。
其成果将是一个开放式编码器模型,旨在与 vLLM 语义路由器和现代 AI 管道集成,强化 AI 系统的检索和路由层,同时为社区和行业扩展硬件多样化的训练和部署选项。
AMD 基础设施上的社区公开测试版
作为此次合作的一部分,vLLM 语义路由器的每个主要版本都将伴随一个由 AMD 赞助的基础设施上托管的公共测试环境,供社区免费使用。
这些公共测试版将允许用户
- 验证新的路由、缓存和安全功能
- 亲身体验在 AMD GPU 上运行的语义路由器
- 提供早期反馈,帮助改进性能、可用性和系统设计
通过降低实验和验证的门槛,这项计划旨在强化 vLLM 生态系统,加速实际应用,并确保新的语义路由器功能在广泛投入生产之前由社区意见塑造。
由 AMD GPU 驱动的 CI/CD 和端到端测试平台
从长远来看,我们旨在利用 AMD GPU 来支撑 VSR 作为一个开源项目的构建、验证和发布方式,确保 VSR 随着项目的增长与 AMD GPU 始终保持良好协同。
我们正在设计一个由 GPU 支持的 CI/CD 和端到端测试平台,其中
- 路由器 SLM、LLM、领域模型、检索和工具在 AMD GPU 集群上协同运行
- 多领域、多风险级别的数据集被回放为流量
- 每个 VSR 更改都通过自动化评估管道运行,包括
- 路由和策略回归测试
- 新策略与旧策略的 A/B 比较
- 对延迟、成本和可扩展性的压力测试
- 针对幻觉缓解和合规行为的专项套件
目标状态很明确
每个 VSR 版本都附带可复现的、GPU 驱动的评估报告,而不仅仅是更改日志。
在这个模型中,AMD GPU 不仅用于服务模型;它们是路由基础设施本身的验证引擎。
一个由 AMD 支持的混合模型游乐场
与此同时,我们正在规划一个由 AMD GPU 驱动的在线混合模型游乐场,向社区和合作伙伴开放。
这个游乐场将允许用户
- 在真实工作负载下试验不同的路由策略和模型拓扑
- 以可视化方式观察 VSR 如何决定调用哪个模型、何时检索以及何时应用额外的检查或回退
- 比较不同配置下的质量、延迟和成本权衡
对于模型供应商、工具构建者和平台提供商,这将成为一个中立的、由 AMD GPU 支持的测试环境,用于
- 将他们的组件集成到 MoM 堆栈中
- 在真实的路由和治理约束下进行基准测试
- 在一个透明、可观察的系统中展示能力
为什么这次合作如此重要
通过 AMD × vLLM 语义路由器合作,我们的目标超越了“这个模型是否在 GPU 上运行”。
共同的抱负是
- 定义一个在 AMD 平台上实现智能、GPU 加速路由的参考架构,包括
- 基于 vLLM 的推理路径,
- 基于 ONNX 的轻量级路由器路径,
- 多模型协调和安全强制执行。
- 将路由视为可信基础设施,由以下方面支持
- 由 GPU 驱动的 CI/CD 和端到端评估,
- 幻觉感知和风险感知策略,
- 在线学习和自适应策略。
- 为生态系统提供一个长期运行的、由 AMD GPU 支持的 MoM 游乐场,在那里可以公开测试和演进想法、模型和路由策略。
简而言之,这是关于共同构建值得信赖、可演进的多模型 AI 基础设施——以 AMD GPU 作为核心执行和验证层,vLLM 语义路由器作为智能控制平面,使整个系统易于理解、可治理并为实际工作负载做好准备。
技术路线图——幻觉检测、在线学习、多模型编排——服务于这一更大的使命。AMD 的硬件提供了执行层。VSR 提供了控制平面。我们共同为 AI 系统奠定基础,使其通过架构而非希望来保持对齐。
致谢
我们要感谢为此次合作做出贡献的众多才华横溢的人们
- AMD:Andy Luo、Haichen Zhang 和 AMD AIG 团队。
- vLLM SR:Xunzhuo Liu、Huamin Chen、Chen Wang、Yue Zhu 和 vLLM 语义路由器开源团队。
我们很高兴在未来几周和几个月内继续完善和扩展我们的优化,以解锁更强大的能力!
加入我们
寻求合作!呼唤所有充满热情的社区开发者和研究人员:加入我们,在 AMD GPU 上训练下一代路由器模型,共同构建值得信赖的 AI 基础设施的未来。
感兴趣?联系我们
- Haichen Zhang: haichzha@amd.com
- Xunzhuo Liu: xunzhuo@vllm-semantic-router.ai
资源:
加入讨论:在 vLLM Slack 的 #semantic-router 频道分享您的用例和反馈