引言

在过去的几个月里,AMD 和 vLLM SR 团队一直致力于将 vLLM 语义路由器 (VSR) 引入 AMD GPU——这不仅是一项性能优化,更是我们思考 AI 系统架构方式的根本性转变。

AMD 一直是 vLLM 社区的长期技术合作伙伴,从在 AMD GPU 和 ROCm™ 软件上加速 vLLM 推理引擎,到如今共同构建 AI 堆栈的下一层:混合模型 (MoM) 系统的智能路由和治理

随着 AI 从单一模型转向多模型架构,挑战不再是“你的模型有多大”,而是你如何智能且安全地协调众多模型。VSR 旨在成为这个新时代的智能控制平面——根据语义理解做出路由决策,执行安全策略,并在系统扩展到 AGI 级别能力时保持信任。

此次合作聚焦于三个战略支柱

  1. 基于信号的路由:针对 Multi-LoRA 和多模型部署,使用关键词匹配、领域分类、语义相似性和事实核查进行智能请求路由
  2. 跨实例智能:通过集中式响应存储和语义缓存,实现 vLLM 实例之间的共享状态和优化
  3. 护栏与治理:从 PII 检测和越狱预防到幻觉检测和对齐强制执行的企业级安全

我们与 AMD 合作,正在构建 VSR,使其在 AMD GPU 上高效运行,同时为值得信赖、可治理的 AI 基础设施建立新标准。

转变:从单一模型到混合模型

在混合模型的世界中,企业 AI 堆栈通常包括

  • 用于分类、路由和执行策略的路由器 SLM(小型语言模型)
  • 多个 LLM 和特定领域模型(例如,代码、金融、医疗保健、法律)
  • 工具、RAG 管道、向量搜索和业务系统

如果没有强大的路由层,这将成为一个不透明且脆弱的网格。AMD × VSR 合作旨在使路由成为一个一流的、GPU 加速的基础设施组件——而不是服务之间随意拼接的脚本。

VSR 核心能力

1. 针对 Multi-LoRA 部署的基于信号的路由

VSR 提供多种路由策略以匹配不同的用例

  • 基于关键词的路由:简单的模式匹配,实现快速、确定性路由
  • 领域分类:使用训练好的分类器进行意图感知适配器选择
  • 基于嵌入的语义相似性:基于语义理解的细微路由
  • 事实核查和验证路由:将高风险查询路由到专门的验证管道

2. 跨实例智能

VSR 可以在所有 vLLM 实例之间实现共享状态和优化

  • 响应 API:集中式响应存储,实现有状态的多轮对话
  • 语义缓存:通过跨实例向量相似性匹配显著减少令牌数量

3. 企业级护栏

从单轮到多轮对话,VSR 提供

  • PII 检测:防止敏感信息泄露
  • 越狱预防:阻止恶意提示注入尝试
  • 幻觉检测:验证关键领域响应的可靠性
  • 超级对齐:确保 AI 系统在向 AGI 能力扩展时与人类价值观和意图保持一致

在 AMD GPU 上运行 VSR:两条部署路径

我们的近期目标是面向执行的:交付在 AMD GPU 上高效运行的生产级 VSR 解决方案。我们正在构建两条互补的部署路径

路径 1:基于 vLLM 在 AMD GPU 上进行推理

使用 AMD GPU 上的 vLLM 引擎,我们运行

路由器 SLM 用于

  • 任务和意图分类
  • 风险评分和安全门控
  • 工具和工作流选择

LLM 和专用模型 用于

  • 通用协助
  • 特定领域任务(金融、法律、代码、医疗保健)

VSR 作为决策结构位于其之上,根据语义相似性、业务元数据、延迟约束和合规性要求执行跨模型和端点的动态路由

AMD GPU 提供运行路由器 SLM + 多个 LLM 在同一集群中所需的吞吐量和内存占用,支持高 QPS 工作负载和稳定的延迟——而不仅仅是单次演示。

路径 2:基于 ONNX 的轻量级路由

并非所有路由都需要完整的推理堆栈。对于系统“前端”的超高频、延迟敏感阶段,我们正在实现

  • 将路由器 SLM 导出到 ONNX
  • 通过 ONNX Runtime 在 AMD GPU 上运行它们
  • 将复杂的生成工作转发给 vLLM 或其他后端 LLM

这条轻量级路径专为以下目的设计

  • 漏斗前端的流量分类和分流
  • 大规模策略评估和离线实验
  • 希望标准化使用 AMD GPU,同时保持模型提供商灵活的企业

迈向语义路由器的下一阶段

当我们首次构建 vLLM 语义路由器时,目标是清晰而实用的:智能模型选择——根据任务类型、成本约束和性能要求将请求路由到正确的模型。

vLLM 引擎提供基础——稳定高效地运行大型模型。vLLM 语义路由器提供调度器——将请求分派到正确的能力。

但是,随着 AI 系统向 AGI 级别能力迈进,这种框架感觉不完整。这就像只讨论发动机效率而不提及刹车、交通法规或安全系统一样。

真正的挑战不是让模型更强大——而是在它们变得更强大时保持控制。

从模型指挥官到智能判断者

与 AMD 合作,我们对语义路由器的演变有了不同的看法。它的潜力不仅在于“路由”,而在于治理——从一个交通指挥官转变为 AGI 时代的智能控制平面

这种转变改变了我们对合作的看法。我们不仅是在 AMD 硬件上优化吞吐量和延迟。我们正在为 AI 系统构建一个宪法层——一个由责任而非仅仅功能定义的层。

必须确保的三条控制生命线

当我们在 AMD 基础设施上构建 VSR 时,我们围绕三个关键控制点进行设计,这些控制点决定了 AI 系统在大规模运行时是否值得信赖

1. 世界输出(行动)

强大模型最危险的能力不是推理——而是执行。每一个改变世界的行动(工具调用、数据库写入、API 调用、配置更改)都必须在执行前通过外部检查点。

借助 AMD GPU,我们可以在生产规模下实时运行这些检查点——评估风险、执行策略和记录决策,而不会成为瓶颈。

2. 世界输入(输入)

外部输入默认情况下是不可信的。网页、检索结果、上传文件和插件返回都可能带有提示注入、数据投毒或特权升级尝试。

AMD 基础设施上的 VSR 在数据到达模型之前提供边境检查——运行分类器、清理器和验证检查作为第一道防线,而不是事后才考虑。

3. 长期状态(内存/状态)

最难修复的故障不是错误的答案——而是被写入长期内存、系统状态或自动化工作流的错误答案

我们的合作重点是使状态管理成为一个首要关注点:谁可以写入,可以写入什么,如何撤销,以及如何隔离污染。AMD 的 GPU 基础设施使我们能够运行持续验证和回滚机制,随着时间的推移保持状态的可靠性。

终极问题

当这三条生命线得到保障时,语义路由器就不再仅仅是一个模型选择器。它成为一个根本问题的答案

我们如何将对齐从训练时期的愿望转变为运行时的制度?

这正是 AMD × vLLM 语义路由器合作的真正意义:不仅要构建更快的路由,还要构建值得信赖、可治理的 AI 基础设施,使其能够安全地扩展到 AGI 级别能力。

长期愿景和正在进行的工作

我们与 AMD 的合作不仅限于近期部署,还旨在为下一代 AI 基础设施奠定基础。我们正在开展多项长期计划

在 AMD GPU 上训练下一代路由器模型

作为一个长期目标,我们旨在探索在 AMD GPU 上训练一个基于纯编码器的下一代路由器模型,该模型针对语义路由、检索增强生成(RAG)和安全分类进行了优化。

虽然最近的编码器模型(例如 ModernBERT)表现出强大的性能,但它们在上下文长度、多语言覆盖和与新兴长上下文注意力技术的对齐方面仍然存在限制。这项工作专注于利用 AMD 硬件提升编码器能力,特别是针对长上下文、高吞吐量的表示学习

其成果将是一个开放式编码器模型,旨在与 vLLM 语义路由器和现代 AI 管道集成,强化 AI 系统的检索和路由层,同时为社区和行业扩展硬件多样化的训练和部署选项。

AMD 基础设施上的社区公开测试版

作为此次合作的一部分,vLLM 语义路由器的每个主要版本都将伴随一个由 AMD 赞助的基础设施上托管的公共测试环境,供社区免费使用。

这些公共测试版将允许用户

  • 验证新的路由、缓存和安全功能
  • 亲身体验在 AMD GPU 上运行的语义路由器
  • 提供早期反馈,帮助改进性能、可用性和系统设计

通过降低实验和验证的门槛,这项计划旨在强化 vLLM 生态系统,加速实际应用,并确保新的语义路由器功能在广泛投入生产之前由社区意见塑造。

由 AMD GPU 驱动的 CI/CD 和端到端测试平台

从长远来看,我们旨在利用 AMD GPU 来支撑 VSR 作为一个开源项目的构建、验证和发布方式,确保 VSR 随着项目的增长与 AMD GPU 始终保持良好协同。

我们正在设计一个由 GPU 支持的 CI/CD 和端到端测试平台,其中

  • 路由器 SLM、LLM、领域模型、检索和工具在 AMD GPU 集群上协同运行
  • 多领域、多风险级别的数据集被回放为流量
  • 每个 VSR 更改都通过自动化评估管道运行,包括
    • 路由和策略回归测试
    • 新策略与旧策略的 A/B 比较
    • 对延迟、成本和可扩展性的压力测试
    • 针对幻觉缓解和合规行为的专项套件

目标状态很明确

每个 VSR 版本都附带可复现的、GPU 驱动的评估报告,而不仅仅是更改日志。

在这个模型中,AMD GPU 不仅用于服务模型;它们是路由基础设施本身的验证引擎

一个由 AMD 支持的混合模型游乐场

与此同时,我们正在规划一个由 AMD GPU 驱动的在线混合模型游乐场,向社区和合作伙伴开放。

这个游乐场将允许用户

  • 在真实工作负载下试验不同的路由策略和模型拓扑
  • 以可视化方式观察 VSR 如何决定调用哪个模型、何时检索以及何时应用额外的检查或回退
  • 比较不同配置下的质量、延迟和成本权衡

对于模型供应商、工具构建者和平台提供商,这将成为一个中立的、由 AMD GPU 支持的测试环境,用于

  • 将他们的组件集成到 MoM 堆栈中
  • 在真实的路由和治理约束下进行基准测试
  • 在一个透明、可观察的系统中展示能力

为什么这次合作如此重要

通过 AMD × vLLM 语义路由器合作,我们的目标超越了“这个模型是否在 GPU 上运行”。

共同的抱负是

  • 定义一个在 AMD 平台上实现智能、GPU 加速路由的参考架构,包括
    • 基于 vLLM 的推理路径,
    • 基于 ONNX 的轻量级路由器路径,
    • 多模型协调和安全强制执行。
  • 将路由视为可信基础设施,由以下方面支持
    • 由 GPU 驱动的 CI/CD 和端到端评估,
    • 幻觉感知和风险感知策略,
    • 在线学习和自适应策略。
  • 为生态系统提供一个长期运行的、由 AMD GPU 支持的 MoM 游乐场,在那里可以公开测试和演进想法、模型和路由策略。

简而言之,这是关于共同构建值得信赖、可演进的多模型 AI 基础设施——以 AMD GPU 作为核心执行和验证层,vLLM 语义路由器作为智能控制平面,使整个系统易于理解、可治理并为实际工作负载做好准备。

技术路线图——幻觉检测、在线学习、多模型编排——服务于这一更大的使命。AMD 的硬件提供了执行层。VSR 提供了控制平面。我们共同为 AI 系统奠定基础,使其通过架构而非希望来保持对齐。

致谢

我们要感谢为此次合作做出贡献的众多才华横溢的人们

  • AMD:Andy Luo、Haichen Zhang 和 AMD AIG 团队。
  • vLLM SR:Xunzhuo Liu、Huamin Chen、Chen Wang、Yue Zhu 和 vLLM 语义路由器开源团队。

我们很高兴在未来几周和几个月内继续完善和扩展我们的优化,以解锁更强大的能力!

加入我们

寻求合作!呼唤所有充满热情的社区开发者和研究人员:加入我们,在 AMD GPU 上训练下一代路由器模型,共同构建值得信赖的 AI 基础设施的未来。

感兴趣?联系我们

  • Haichen Zhang: haichzha@amd.com
  • Xunzhuo Liu: xunzhuo@vllm-semantic-router.ai

资源:

加入讨论:在 vLLM Slack 的 #semantic-router 频道分享您的用例和反馈