发布 vLLM-Omni：简单、快速、经济的全模态模型服务

我们激动地宣布正式发布 vLLM-Omni，这是 vLLM 生态系统的一次重大扩展，旨在支持下一代人工智能：全模态模型。

自诞生以来，vLLM 一直专注于为大语言模型 (LLM) 提供高吞吐量、高内存效率的服务。然而，生成式人工智能的格局正在迅速变化。模型不再仅仅是文本输入、文本输出。当今最先进的模型能够跨越文本、图像、音频和视频进行推理，并使用多样化的架构生成异构输出。

vLLM-Omni 是首批支持全模态模型服务的开源框架之一，它将 vLLM 的卓越性能扩展到了多模态和非自回归推理领域。

omni-modality model architecture

为什么选择 vLLM-Omni？

传统的服务引擎是为基于文本的自回归 (AR) 任务而优化的。随着模型演变为能够看、听、说的“全能”代理，服务基础设施也必须随之进化。

vLLM-Omni 应对了模型架构中的三个关键转变：

vLLM-Omni 不仅仅是一个封装层；它是对 vLLM 内部及外部数据流的重新构想。它引入了一个完全解耦的流水线，允许在不同的生成阶段进行动态资源分配。如上图所示，该架构统一了不同的阶段：

vllm-omni user interface

简单易用：如果你知道如何使用 vLLM，你就知道如何使用 vLLM-Omni。我们保持了与 Hugging Face 模型的无缝集成，并提供了一个与 OpenAI 兼容的 API 服务器。
灵活性：通过 OmniStage 抽象，我们提供了一种简单直接的方式来支持各种全模态模型，包括 Qwen-Omni、Qwen-Image 和其他最先进的模型。
高性能：我们利用流水线式的阶段执行来重叠计算，以实现高吞吐性能，确保在一个阶段处理时，其他阶段不会空闲。

vllm-omni pipelined stage execution

我们将 vLLM-Omni 与 Hugging Face Transformers 进行了基准测试，以展示在全模态服务中的效率提升。

vLLM-Omni against Hugging Face Transformers

vLLM-Omni 正在快速发展。我们的路线图专注于扩展模型支持，并进一步推动高效推理的边界，同时构建正确的框架以赋能未来关于全模态模型的研究。

开始使用 vLLM-Omni 非常简单。首个 vllm-omni v0.11.0rc 版本是基于 vLLM v0.11.0 构建的。

请查看我们的安装文档以获取详细信息。

请查看我们的示例目录，获取启动图像、音频和视频生成工作流的具体脚本。vLLM-Omni 还提供了 gradio 支持以改善用户体验，以下是服务 Qwen-Image 的一个演示示例。

vllm-omni serving qwen-image with gradio

这仅仅是全模态服务的开始。我们正在积极开发对更多架构的支持，并邀请社区帮助塑造 vLLM-Omni 的未来。

让我们一起共建全模态服务的未来！