首页/详情

KernelEvolve:Meta 排名工程师代理驱动的跨硬件自动内核生成系统

Engineering at Meta2026/04/03 03:59机翻/自动摘要/自动分类
4 阅读

内容评分

技术含量
8/10
营销水分
5/10

摘要

Meta 推出 KernelEvolve——基于 LLM 的自动内核生成系统,能够在数小时内为 NVIDIA、AMD、MTIA 等异构芯片生成高效算子,实现广告模型推理吞吐提升 60% 以上、训练提升 25% 以上。系统将内核优化视为搜索问题,利用工作流评估数百候选并通过 LLM 迭代改进,已在生产环境每日处理万亿级请求,标志着 AI 软件与硬件协同优化的自动化转型。

正文

本文是“排名工程师代理”系列的第二篇,聚焦于 Meta 如何通过自主 AI 能力加速广告排名及其他 AI 工作负载的底层基础设施优化。Meta 拥有包括 NVIDIA GPU、AMD GPU、定制的 MTIA 芯片以及 CPU 在内的多样化异构硬件。要在这些平台上高效运行模型,需要将高级算子转化为针对特定芯片的优化内核。随着硬件代数、模型架构和算子种类的组合呈指数增长,传统的人工内核调优已无法满足需求。

为此,Meta 开发了 KernelEvolve——一个代理式内核生成系统,嵌入在排名工程师代理的工作流中。KernelEvolve 将内核优化建模为搜索问题:工作流自动生成数百个候选实现,并将每个候选的性能诊断信息反馈给大型语言模型(), 在此基础上迭代生成更优代码。最终得到的内核在多平台上均优于人工专家手工编写的实现。

核心优势

  1. 开发速度提升:将专家级内核的研发周期从数周压缩至数小时。
  2. 性能提升:在 NVIDIA GPU 上,Andromeda 广告模型的推理吞吐量提升 60% 以上;在 MTIA 芯片上,训练吞吐量提升 25% 以上。
  3. 跨平台适用:支持 NVIDIA、AMD、MTIA 以及 CPU,兼容 Triton、Cute DSL、FlyDSL 等高级 DSL,以及 CUDA、HIP、MTIA C++ 等底层语言。

技术实现

  • 搜索框架:专用工作流负责候选内核的生成、编译、基准测试和诊断信息收集。
  • LLM 反馈循环 接收诊断数据(如寄存器使用、内存带宽利用率、指令调度冲突),在数百次迭代中持续改进代码。
  • 多硬件抽象层:通过硬件特性描述(memory hierarchy、SIMD width、tensor core 支持等)实现一次搜索可迁移至不同芯片。

实际部署 KernelEvolve 已在 Meta 生产环境中每日处理数万亿次推理请求,覆盖广告推荐、个性化推荐以及生成式 AI 助手等业务。该系统的成功展示了 AI 软件与硬件协同优化的全新范式。

未来展望 类似的自动化搜索与 代码生成技术有望扩展至混合模型搜索、编译器优化、内存管理和系统配置等更广阔的领域,进一步提升 AI 基础设施的自适应能力。相关研究将在第 53 届 ISCA(2026)上发表,题为《KernelEvolve:在 Meta 的异构 AI 加速器中扩展代理式内核编码》。

致谢 感谢 Ying Wang、Hongsen Qin 等 40 位专家的贡献。

标签