首届 vLLM 韩国 Meetup
首届 vLLM 韩国 meetup 于 2025 年 8 月 19 日在首尔举行,由 Rebellions 和 Red Hat 主办,并得到了 PyTorch 韩国用户组和 SqueezeBits 的支持。
以下是几个重要数据:超过 350 人报名,参会者来自超过 75 家公司,其中 80% 是行业专业人士,而这 80% 的人中又有 80% 是软件工程师和研究人员。这标志着 vLLM 在韩国的首次亮相取得了巨大成功。
本次活动汇聚了本地的开发者、研究人员和 AI 基础设施工程师,共同分享了关于高效 LLM 推理的见解,并探讨了 vLLM 如何实现可扩展、硬件友好的部署——现在还包括了对 NPU 的支持。
活动亮点
Nicolo Lucchesi:vLLM + llm-d 简介及 vLLM TPU 集成深度解析
Red Hat 的高级机器学习工程师 Nicolò Lucchesi 在活动开场时,重点介绍了 vLLM 背后的原创性创新——通过一种新颖的 PagedAttention 架构,解决了 KV 缓存和动态批处理中长期存在的挑战。他强调“现代问题需要传统解决方案”,并指出调度和内存管理中的这些挑战其实在操作系统中早已被解决,而 vLLM 只是将这些经过验证的理念应用于 AI 推理。
他还介绍了 llm-d,这是一个支持分布式推理的项目。llm-d 是一个 Kubernetes 原生的编排层,可以协调多个 vLLM 实例并支持自动扩缩容——堪称“vLLM 与 Kubernetes 的结合”。
最后,Nicolò 介绍了正在进行的将 Google TPU 等 AI 加速器集成到 vLLM 中的工作,这将扩大 vLLM 在不同硬件平台上的可用性。
Daniele Trifirò:如何构建、测试并为 vLLM 做出贡献
Red Hat 的高级软件工程师 Daniele Trifirò 分享了开发者如何构建、测试并为 vLLM 项目做出贡献——重点关注真实的 AI 服务场景。他强调了该项目快节奏的开发周期,每周发布新版本,贡献者基础不断壮大,推动着代码的巨大变革。由于硬件要求,构建 vLLM 并非总是那么简单,Daniele 为此提供了实用的技巧和见解,帮助新贡献者上手。
他还解释了针对特定硬件进行编译的必要性,并指出根据目标设备(如 CUDA、ROCm、TPU)的不同,构建过程中的内存使用量可能会急剧增加。为了提高灵活性和开发者参与度,他介绍了 vLLM 全新的硬件插件系统。这个插件架构使 vLLM 对设备的依赖性更低,进一步巩固了其作为一个稳健、可扩展的 AI 服务生态系统的地位。
Hong-seok Kim:利用 vLLM 为 Rebellions NPU 强势赋能
Rebellions 的首席软件架构师 Hong-Seok Kim 谈到了 vLLM 对于 AI 加速器初创公司的重要性日益增加,并分享了 Rebellions 如何为更广泛的 AI 推理服务生态系统做出贡献。他强调,vLLM 的硬件插件系统使像 Rebellions 这样的公司能够支持开发者在定制硬件上部署 LLM——提供几乎与在 GPU 上运行相媲美的无缝体验。
得益于 vLLM,工程师现在可以直接在 Rebellions 的 NPU 上运行 MoE(混合专家)模型,同时还能利用并行计算和连续批处理等核心优化功能——所有这些都无需复杂的集成步骤。这为在新一代加速器上实现高效、可扩展的 AI 服务打开了大门。
Hyungjun Kim:利用 vLLM 进行量化与评估
来自 SqueezeBits 的 Hyungjun Kim 探讨了量化如何成为 LLM 部署中不可或缺的一部分,以及如何在 vLLM 生态系统内有效利用量化。他概述了使用 vLLM 服务量化模型的两种主要方式:加载一个预量化模型进行服务,或者自己量化模型然后再进行部署。
为了简化这一过程,vLLM 项目包含一个名为 LLM Compressor 的开源子项目,帮助开发者更轻松地将量化集成到他们的工作流程中。Hyungjun 还介绍了 Fits on Chips,这是 SqueezeBits 的一个开源工具包,用于评估 LLM 在 vLLM 内的服务性能。该工具包有助于比较吞吐量、延迟、准确性和硬件,从而清晰地展示出最高效的服务配置。
展望未来
本次 meetup 还展望了 vLLM 韩国社区未来的发展方向。我们计划与本地工程团体——包括 PyTorch 韩国用户组和 Python 韩国——合作,定期举办 vLLM 韩国 meetup。这些活动将包括动手实践工作坊、开发者聚会和小组讨论,旨在加强社区联系并推动对 vLLM 生态系统的技术贡献。
在开源的早期,贡献的分布更为均衡。但随着 LLM 的兴起和对 AI 加速器的需求,个人工程师和学者获得实际经验变得更加困难。我们相信,通过社区驱动的基础设施和协作,我们可以建立一个可持续的、实践性的学习环境——我们欢迎新的志愿者加入,共同塑造 vLLM 的未来。
这次首届 meetup 标志着韩国 vLLM 社区迈出了激动人心的一步,再次印证了什么才是最重要的:为真实世界的 AI 服务提供实用、可扩展的解决方案。Rebellions、Red Hat 以及该地区充满热情的工程师们都致力于支持更多社区驱动的活动,并持续为 vLLM 项目做出贡献。
感谢所有参与并使这次首次聚会取得成功的人们——我们才刚刚开始。