专题:heterogeneous-hardware

按该标签聚合的大模型资讯列表(自动分类与标签提取)。2 篇文章。

官方Engineering at Meta2026/04/03 03:595840
KernelEvolve 用 LLM 自动搜索生成跨硬件内核
推理吞吐提升 60%+,训练提升 25%+

Meta 推出 KernelEvolve——基于 LLM 的自动内核生成系统,能够在数小时内为 NVIDIA、AMD、MTIA 等异构芯片生成高效算子,实现广告模型推理吞吐提升 60% 以上、训练提升 25% 以上。系统将内核优化视为搜索问题,利用工作流评估数百候选并通过 LLM 迭代改进,已在生产环境每日处理万亿级请求,标志着 AI 软件与硬件协同优化的…

社区Reddit r/LocalLLaMA2026/02/22 17:235740

smolcluster 是一个基于 Python socket 的教育型分布式训练框架,重新实现了 EDP、SyncPS、FSDP、DP、MP、PP 等主流并行算法,并在 Mac Mini、Raspberry Pi、GPU 与 Jetson 等异构硬件上完成测试。项目以单文件形式提供,旨在帮助学生和研究者从底层网络层面学习分布式系统原理。