Arm SME2 架构驱动的端侧 AI 推理性能提升实战
InfoQ 中文2026/04/09 23:59机翻/自动摘要/自动分类
4 阅读
内容评分
技术含量
8/10
营销水分
4/10
摘要
本文回顾了 Arm 最新的 SME2 矩阵扩展指令集在端侧 AI 推理中的应用,解析了其相较于传统 SIMD 的性能优势,并通过 Compute Library 示例展示了卷积、GEMM 与 Transformer 加速效果。文章提供了编译选项、数据布局和混合精度调优技巧,以及在智能摄像头、语音识别等场景的落地案例,帮助开发者快速在 Cortex‑A78AE 等边缘芯片上实现 2 倍以上的推理提速。
正文
在本次 InfoQ 研讨会中,Arm 资深架构师详细阐述了最新的 SME2(Scalable Matrix Extension)指令集如何在端侧 AI 推理场景中实现算力与能效的双重提升。会议首先回顾了传统 SIMD 与向量扩展的局限,随后通过实际案例展示了 SME2 在卷积、矩阵乘法以及 注意力机制中的加速路径。演示代码基于 Arm Compute Library,使用 C++ 接口调用 arm_sme2::gemm、arm_sme2::conv2d 等 API,配合编译器优化选项 -march=armv9.2-a+smep2,在 NPU‑less 的 Cortex‑A78AE 上实现了 2.3× 的吞吐提升。随后,专家分享了性能调优技巧,包括数据布局对齐、缓存块划分以及混合精度策略(FP16→BF16),并提供了 Profiling 脚本用于量化瓶颈。最后,围绕智能摄像头、语音识别和工业视觉三大行业应用,探讨了 SME2 与 Arm Neoverse 系列服务器的协同工作模式,展示了端云一体化推理流水线的完整实现方案。