KernelEvolve：Meta 排名工程师代理驱动的跨硬件自动内核生成系统

本文是“排名工程师代理”系列的第二篇，聚焦于 Meta 如何通过自主 AI 能力加速广告排名及其他 AI 工作负载的底层基础设施优化。Meta 拥有包括 NVIDIA GPU、AMD GPU、定制的 MTIA 芯片以及 CPU 在内的多样化异构硬件。要在这些平台上高效运行模型，需要将高级算子转化为针对特定芯片的优化内核。随着硬件代数、模型架构和算子种类的组合呈指数增长，传统的人工内核调优已无法满足需求。

为此，Meta 开发了 KernelEvolve——一个代理式内核生成系统，嵌入在排名工程师代理的工作流中。KernelEvolve 将内核优化建模为搜索问题：工作流自动生成数百个候选实现，并将每个候选的性能诊断信息反馈给大型语言模型（），在此基础上迭代生成更优代码。最终得到的内核在多平台上均优于人工专家手工编写的实现。

核心优势

开发速度提升：将专家级内核的研发周期从数周压缩至数小时。
性能提升：在 NVIDIA GPU 上，Andromeda 广告模型的推理吞吐量提升 60% 以上；在 MTIA 芯片上，训练吞吐量提升 25% 以上。
跨平台适用：支持 NVIDIA、AMD、MTIA 以及 CPU，兼容 Triton、Cute DSL、FlyDSL 等高级 DSL，以及 CUDA、HIP、MTIA C++ 等底层语言。

技术实现

搜索框架：专用工作流负责候选内核的生成、编译、基准测试和诊断信息收集。
LLM 反馈循环：接收诊断数据（如寄存器使用、内存带宽利用率、指令调度冲突），在数百次迭代中持续改进代码。
多硬件抽象层：通过硬件特性描述（memory hierarchy、SIMD width、tensor core 支持等）实现一次搜索可迁移至不同芯片。

实际部署 KernelEvolve 已在 Meta 生产环境中每日处理数万亿次推理请求，覆盖广告推荐、个性化推荐以及生成式 AI 助手等业务。该系统的成功展示了 AI 软件与硬件协同优化的全新范式。

未来展望 类似的自动化搜索与代码生成技术有望扩展至混合模型搜索、编译器优化、内存管理和系统配置等更广阔的领域，进一步提升 AI 基础设施的自适应能力。相关研究将在第 53 届 ISCA（2026）上发表，题为《KernelEvolve：在 Meta 的异构 AI 加速器中扩展代理式内核编码》。

致谢感谢 Ying Wang、Hongsen Qin 等 40 位专家的贡献。

KernelEvolve：Meta 排名工程师代理驱动的跨硬件自动内核生成系统

内容评分

摘要

正文

标签