AMD × vLLM 语义路由器：共同构建系统智能

引言

在过去的几个月里，AMD 和 vLLM SR 团队一直致力于将 vLLM 语义路由器 (VSR) 引入 AMD GPU——这不仅是一项性能优化，更是我们思考 AI 系统架构方式的根本性转变。

AMD 一直是 vLLM 社区的长期技术合作伙伴，从在 AMD GPU 和 ROCm™ 软件上加速 vLLM 推理引擎，到如今共同构建 AI 堆栈的下一层：混合模型 (MoM) 系统的智能路由和治理。

随着 AI 从单一模型转向多模型架构，挑战不再是“你的模型有多大”，而是你如何智能且安全地协调众多模型。VSR 旨在成为这个新时代的智能控制平面——根据语义理解做出路由决策，执行安全策略，并在系统扩展到 AGI 级别能力时保持信任。

此次合作聚焦于三个战略支柱

基于信号的路由：针对 Multi-LoRA 和多模型部署，使用关键词匹配、领域分类、语义相似性和事实核查进行智能请求路由
跨实例智能：通过集中式响应存储和语义缓存，实现 vLLM 实例之间的共享状态和优化
护栏与治理：从 PII 检测和越狱预防到幻觉检测和对齐强制执行的企业级安全

我们与 AMD 合作，正在构建 VSR，使其在 AMD GPU 上高效运行，同时为值得信赖、可治理的 AI 基础设施建立新标准。

转变：从单一模型到混合模型

在混合模型的世界中，企业 AI 堆栈通常包括

用于分类、路由和执行策略的路由器 SLM（小型语言模型）
多个 LLM 和特定领域模型（例如，代码、金融、医疗保健、法律）
工具、RAG 管道、向量搜索和业务系统

如果没有强大的路由层，这将成为一个不透明且脆弱的网格。AMD × VSR 合作旨在使路由成为一个一流的、GPU 加速的基础设施组件——而不是服务之间随意拼接的脚本。

VSR 核心能力

1. 针对 Multi-LoRA 部署的基于信号的路由

VSR 提供多种路由策略以匹配不同的用例

基于关键词的路由：简单的模式匹配，实现快速、确定性路由
领域分类：使用训练好的分类器进行意图感知适配器选择
基于嵌入的语义相似性：基于语义理解的细微路由
事实核查和验证路由：将高风险查询路由到专门的验证管道

2. 跨实例智能

VSR 可以在所有 vLLM 实例之间实现共享状态和优化

响应 API：集中式响应存储，实现有状态的多轮对话
语义缓存：通过跨实例向量相似性匹配显著减少令牌数量

3. 企业级护栏

从单轮到多轮对话，VSR 提供

PII 检测：防止敏感信息泄露
越狱预防：阻止恶意提示注入尝试
幻觉检测：验证关键领域响应的可靠性
超级对齐：确保 AI 系统在向 AGI 能力扩展时与人类价值观和意图保持一致

在 AMD GPU 上运行 VSR：两条部署路径

我们的近期目标是面向执行的：交付在 AMD GPU 上高效运行的生产级 VSR 解决方案。我们正在构建两条互补的部署路径

路径 1：基于 vLLM 在 AMD GPU 上进行推理

使用 AMD GPU 上的 vLLM 引擎，我们运行

路由器 SLM 用于

任务和意图分类
风险评分和安全门控
工具和工作流选择

LLM 和专用模型 用于

通用协助
特定领域任务（金融、法律、代码、医疗保健）

VSR 作为决策结构位于其之上，根据语义相似性、业务元数据、延迟约束和合规性要求执行跨模型和端点的动态路由。

AMD GPU 提供运行路由器 SLM + 多个 LLM 在同一集群中所需的吞吐量和内存占用，支持高 QPS 工作负载和稳定的延迟——而不仅仅是单次演示。

路径 2：基于 ONNX 的轻量级路由

并非所有路由都需要完整的推理堆栈。对于系统“前端”的超高频、延迟敏感阶段，我们正在实现

将路由器 SLM 导出到 ONNX
通过 ONNX Runtime 在 AMD GPU 上运行它们
将复杂的生成工作转发给 vLLM 或其他后端 LLM

这条轻量级路径专为以下目的设计

漏斗前端的流量分类和分流
大规模策略评估和离线实验
希望标准化使用 AMD GPU，同时保持模型提供商灵活的企业

迈向语义路由器的下一阶段

当我们首次构建 vLLM 语义路由器时，目标是清晰而实用的：智能模型选择——根据任务类型、成本约束和性能要求将请求路由到正确的模型。

vLLM 引擎提供基础——稳定高效地运行大型模型。vLLM 语义路由器提供调度器——将请求分派到正确的能力。

但是，随着 AI 系统向 AGI 级别能力迈进，这种框架感觉不完整。这就像只讨论发动机效率而不提及刹车、交通法规或安全系统一样。

真正的挑战不是让模型更强大——而是在它们变得更强大时保持控制。

从模型指挥官到智能判断者

与 AMD 合作，我们对语义路由器的演变有了不同的看法。它的潜力不仅在于“路由”，而在于治理——从一个交通指挥官转变为 AGI 时代的智能控制平面。

这种转变改变了我们对合作的看法。我们不仅是在 AMD 硬件上优化吞吐量和延迟。我们正在为 AI 系统构建一个宪法层——一个由责任而非仅仅功能定义的层。

必须确保的三条控制生命线

当我们在 AMD 基础设施上构建 VSR 时，我们围绕三个关键控制点进行设计，这些控制点决定了 AI 系统在大规模运行时是否值得信赖

1. 世界输出（行动）

强大模型最危险的能力不是推理——而是执行。每一个改变世界的行动（工具调用、数据库写入、API 调用、配置更改）都必须在执行前通过外部检查点。

借助 AMD GPU，我们可以在生产规模下实时运行这些检查点——评估风险、执行策略和记录决策，而不会成为瓶颈。

2. 世界输入（输入）

外部输入默认情况下是不可信的。网页、检索结果、上传文件和插件返回都可能带有提示注入、数据投毒或特权升级尝试。

AMD 基础设施上的 VSR 在数据到达模型之前提供边境检查——运行分类器、清理器和验证检查作为第一道防线，而不是事后才考虑。

3. 长期状态（内存/状态）

最难修复的故障不是错误的答案——而是被写入长期内存、系统状态或自动化工作流的错误答案。

我们的合作重点是使状态管理成为一个首要关注点：谁可以写入，可以写入什么，如何撤销，以及如何隔离污染。AMD 的 GPU 基础设施使我们能够运行持续验证和回滚机制，随着时间的推移保持状态的可靠性。

终极问题

当这三条生命线得到保障时，语义路由器就不再仅仅是一个模型选择器。它成为一个根本问题的答案

我们如何将对齐从训练时期的愿望转变为运行时的制度？

这正是 AMD × vLLM 语义路由器合作的真正意义：不仅要构建更快的路由，还要构建值得信赖、可治理的 AI 基础设施，使其能够安全地扩展到 AGI 级别能力。

长期愿景和正在进行的工作

我们与 AMD 的合作不仅限于近期部署，还旨在为下一代 AI 基础设施奠定基础。我们正在开展多项长期计划

在 AMD GPU 上训练下一代路由器模型

作为一个长期目标，我们旨在探索在 AMD GPU 上训练一个基于纯编码器的下一代路由器模型，该模型针对语义路由、检索增强生成（RAG）和安全分类进行了优化。

虽然最近的编码器模型（例如 ModernBERT）表现出强大的性能，但它们在上下文长度、多语言覆盖和与新兴长上下文注意力技术的对齐方面仍然存在限制。这项工作专注于利用 AMD 硬件提升编码器能力，特别是针对长上下文、高吞吐量的表示学习。

其成果将是一个开放式编码器模型，旨在与 vLLM 语义路由器和现代 AI 管道集成，强化 AI 系统的检索和路由层，同时为社区和行业扩展硬件多样化的训练和部署选项。

AMD 基础设施上的社区公开测试版

作为此次合作的一部分，vLLM 语义路由器的每个主要版本都将伴随一个由 AMD 赞助的基础设施上托管的公共测试环境，供社区免费使用。

这些公共测试版将允许用户

验证新的路由、缓存和安全功能
亲身体验在 AMD GPU 上运行的语义路由器
提供早期反馈，帮助改进性能、可用性和系统设计

通过降低实验和验证的门槛，这项计划旨在强化 vLLM 生态系统，加速实际应用，并确保新的语义路由器功能在广泛投入生产之前由社区意见塑造。

由 AMD GPU 驱动的 CI/CD 和端到端测试平台

从长远来看，我们旨在利用 AMD GPU 来支撑 VSR 作为一个开源项目的构建、验证和发布方式，确保 VSR 随着项目的增长与 AMD GPU 始终保持良好协同。

我们正在设计一个由 GPU 支持的 CI/CD 和端到端测试平台，其中

路由器 SLM、LLM、领域模型、检索和工具在 AMD GPU 集群上协同运行
多领域、多风险级别的数据集被回放为流量
每个 VSR 更改都通过自动化评估管道运行，包括
- 路由和策略回归测试
- 新策略与旧策略的 A/B 比较
- 对延迟、成本和可扩展性的压力测试
- 针对幻觉缓解和合规行为的专项套件

目标状态很明确

每个 VSR 版本都附带可复现的、GPU 驱动的评估报告，而不仅仅是更改日志。

在这个模型中，AMD GPU 不仅用于服务模型；它们是路由基础设施本身的验证引擎。

一个由 AMD 支持的混合模型游乐场

与此同时，我们正在规划一个由 AMD GPU 驱动的在线混合模型游乐场，向社区和合作伙伴开放。

这个游乐场将允许用户

在真实工作负载下试验不同的路由策略和模型拓扑
以可视化方式观察 VSR 如何决定调用哪个模型、何时检索以及何时应用额外的检查或回退
比较不同配置下的质量、延迟和成本权衡

对于模型供应商、工具构建者和平台提供商，这将成为一个中立的、由 AMD GPU 支持的测试环境，用于

将他们的组件集成到 MoM 堆栈中
在真实的路由和治理约束下进行基准测试
在一个透明、可观察的系统中展示能力

为什么这次合作如此重要

通过 AMD × vLLM 语义路由器合作，我们的目标超越了“这个模型是否在 GPU 上运行”。

共同的抱负是

定义一个在 AMD 平台上实现智能、GPU 加速路由的参考架构，包括
- 基于 vLLM 的推理路径，
- 基于 ONNX 的轻量级路由器路径，
- 多模型协调和安全强制执行。
将路由视为可信基础设施，由以下方面支持
- 由 GPU 驱动的 CI/CD 和端到端评估，
- 幻觉感知和风险感知策略，
- 在线学习和自适应策略。
为生态系统提供一个长期运行的、由 AMD GPU 支持的 MoM 游乐场，在那里可以公开测试和演进想法、模型和路由策略。

简而言之，这是关于共同构建值得信赖、可演进的多模型 AI 基础设施——以 AMD GPU 作为核心执行和验证层，vLLM 语义路由器作为智能控制平面，使整个系统易于理解、可治理并为实际工作负载做好准备。

技术路线图——幻觉检测、在线学习、多模型编排——服务于这一更大的使命。AMD 的硬件提供了执行层。VSR 提供了控制平面。我们共同为 AI 系统奠定基础，使其通过架构而非希望来保持对齐。

致谢

我们要感谢为此次合作做出贡献的众多才华横溢的人们

AMD：Andy Luo、Haichen Zhang 和 AMD AIG 团队。
vLLM SR：Xunzhuo Liu、Huamin Chen、Chen Wang、Yue Zhu 和 vLLM 语义路由器开源团队。

我们很高兴在未来几周和几个月内继续完善和扩展我们的优化，以解锁更强大的能力！

加入我们

寻求合作！呼唤所有充满热情的社区开发者和研究人员：加入我们，在 AMD GPU 上训练下一代路由器模型，共同构建值得信赖的 AI 基础设施的未来。

感兴趣？联系我们

Haichen Zhang: haichzha@amd.com
Xunzhuo Liu: xunzhuo@vllm-semantic-router.ai

资源:

加入讨论：在 vLLM Slack 的 #semantic-router 频道分享您的用例和反馈