MiniMax-M1 混合架构与 vLLM 结合：长上下文、快速推理

本文探讨了 MiniMax-M1 的混合架构如何在 vLLM 中得到高效支持。我们讨论了该模型的独特特性、高效推理面临的挑战以及 vLLM 中实现的技术解决方案。

引言

人工智能的快速发展催生了越来越强大的大型语言模型（LLM）。MiniMax-M1 是一款流行的开源大规模混合专家（MoE）推理模型，自发布以来备受关注。其创新的混合架构预示着 LLM 的未来，在长上下文推理和复杂任务处理方面取得了突破。同时，高性能 LLM 推理和服务库 vLLM 为 MiniMax-M1 提供了强大的支持，使得高效部署成为可能。

MiniMax-M1 Benchmark Performance

左图：领先的商业和开源模型在数学、代码、软件工程、工具使用和长上下文理解等任务上的基准比较。MiniMax-M1 在开源模型中处于领先地位。
右图：理论推理 FLOPs 随 token 长度的扩展情况。与 DeepSeek R1 相比，MiniMax-M1 在生成 10 万个 token 的序列时仅使用 25% 的 FLOPs。

使用 vLLM 部署 MiniMax-M1

我们建议使用 vLLM 部署 MiniMax-M1 以获得最佳性能。我们的测试表明其具有以下主要优势：

出色的吞吐量
高效智能的内存管理
对批量请求的强大支持
深度优化的后端性能

模型下载

您可以从 Hugging Face 下载模型

# Install the Hugging Face Hub CLI
pip install -U huggingface-hub

# Download the MiniMax-M1-40k model
huggingface-cli download MiniMaxAI/MiniMax-M1-40k
# For the 80k version, uncomment the following line:
# huggingface-cli download MiniMaxAI/MiniMax-M1-80k

部署

以下是使用 vLLM 和 Docker 部署 MiniMax-M1 的快速指南

# Set environment variables
IMAGE=vllm/vllm-openai:latest 
MODEL_DIR=<model storage path> 
NAME=MiniMaxImage 

# Docker run configuration
DOCKER_RUN_CMD="--network=host --privileged --ipc=host --ulimit memlock=-1 --rm --gpus all --ulimit stack=67108864"

# Start the container
sudo docker run -it \
    -v $MODEL_DIR:$MODEL_DIR \    
    --name $NAME \                
    $DOCKER_RUN_CMD \          
    $IMAGE /bin/bash    

# Launch MiniMax-M1 Service
export SAFETENSORS_FAST_GPU=1
export VLLM_USE_V1=0
vllm serve \
--model <model storage path> \
--tensor-parallel-size 8 \
--trust-remote-code \
--quantization experts_int8  \
--max_model_len 4096 \
--dtype bfloat16

MiniMax-M1 混合架构亮点

混合专家（MoE）

MiniMax-M1 采用了混合专家（MoE）架构，总参数量达 4560 亿。在推理过程中，动态路由算法根据输入 token 的语义特征激活稀疏的专家子集（约 459 亿参数，占总参数的 10%）。这种稀疏激活由门控网络管理，该网络计算专家选择概率。

这种方法显著提高了计算效率：在分类任务中，它将计算成本降低了高达 90%，同时保持了与密集模型相当的准确性。

MoE vs. Dense Comparison — 等 FLOPs 比较：MoE 与密集模型在各种基准测试上的对比。两个模型均在 1 万亿个 token 上进行训练。灰色虚线表示两个模型达到相同性能所需的计算量差异。

Lightning Attention

Lightning Attention 通过引入线性化近似技术，解决了传统注意力机制的二次复杂度瓶颈。它在动态内存分块和梯度近似的辅助下，将 softmax 注意力转换为矩阵乘法的线性组合。

在代码补全基准测试中，Lightning Attention 将 10 万个 token 序列的内存使用量减少了 83%，推理延迟减少了 67%。

Lightning Attention Algorithm — Lightning Attention 算法概述，它减少了长序列的内存使用和延迟。

高效计算 & 激活策略

得益于其混合架构，MiniMax-M1 实现了高效计算和可扩展推理。Lightning Attention 机制显著提高了运行时性能，而稀疏专家激活策略则避免了不必要的计算。这使得即使在有限的硬件资源下也能实现强大的性能。

要了解有关 MiniMax-M1 的更多信息，请参阅本文。

使用 vLLM 进行高效推理

高级内存管理

vLLM 引入了 PagedAttention，这是一种更有效地管理注意力键值缓存的技术。vLLM 不会将 kv-cache 连续存储，而是将其划分为多个内存页，大大减少了碎片和过度分配。这使得 vLLM 能够将内存浪费降至 4% 以下，而传统方法则高达 60%-80%。

这种高效的内存处理对于 MiniMax-M1 等支持超长上下文长度的模型至关重要，可确保平稳稳定的推理，而不会遇到内存瓶颈。

深度内核级优化

vLLM 融合了广泛的 CUDA 内核优化，包括与 FlashAttention、FlashInfer 的集成，以及对 GPTQ、AWQ、INT4、INT8 和 FP8 等量化格式的支持。

这些增强功能进一步提升了 MiniMax-M1 推理的底层计算效率。量化在最小精度损失的情况下减少了内存和计算开销，而 FlashAttention 则加速了注意力计算本身——从而在实际应用中实现了显著更快的推理。

vLLM 中的 Lightning Attention

作为一种尖端注意力机制，Lightning Attention 通过 Triton 在 vLLM 中实现，充分利用了 Triton 的灵活性和高性能计算特性。基于 Triton 的执行框架完全支持 Lightning Attention 的核心计算逻辑，从而实现了在 vLLM 生态系统中的无缝集成和部署。

未来工作

展望未来，vLLM 社区正在积极探索对混合架构支持的进一步优化。值得注意的是，混合分配器的开发有望实现更高效的内存管理，以适应 MiniMax-M1 等模型的独特需求。

此外，计划全面支持 vLLM v1，混合模型架构预计将迁移到 v1 框架中。这些进步有望进一步提升性能，并为未来的发展提供更坚实的基础。

结论

MiniMax-M1 的混合架构为下一代大型语言模型铺平了道路，在长上下文推理和复杂任务推理方面提供了强大的能力。vLLM 通过高度优化的内存处理、强大的批量请求管理和深度调优的后端性能对其进行了补充。

MiniMax-M1 和 vLLM 共同为高效可扩展的 AI 应用奠定了坚实基础。随着生态系统的发展，我们预计这种协同作用将为广泛用例提供更智能、响应更快、功能更强大的解决方案，包括代码生成、文档分析和对话式 AI。

致谢

我们衷心感谢 vLLM 社区的宝贵支持与合作。特别感谢 Tyler Michael Smith、Simon Mo、Cyrus Leung、Roger Wang、Zifeng Mo 和 Kaichao You 所做的重大贡献。我们也感谢 MiniMax 工程团队的努力，特别是 Gangying Qing、Jun Qing 和 Jiaren Cai，他们的奉献使这项工作成为可能。