Arm SME2 架构驱动的端侧 AI 推理性能提升实战

InfoQ 中文2026/04/09 23:59机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

4/10

摘要

本文回顾了 Arm 最新的 SME2 矩阵扩展指令集在端侧 AI 推理中的应用，解析了其相较于传统 SIMD 的性能优势，并通过 Compute Library 示例展示了卷积、GEMM 与 Transformer 加速效果。文章提供了编译选项、数据布局和混合精度调优技巧，以及在智能摄像头、语音识别等场景的落地案例，帮助开发者快速在 Cortex‑A78AE 等边缘芯片上实现 2 倍以上的推理提速。

正文

在本次 InfoQ 研讨会中，Arm 资深架构师详细阐述了最新的 SME2（Scalable Matrix Extension）指令集如何在端侧 AI 推理场景中实现算力与能效的双重提升。会议首先回顾了传统 SIMD 与向量扩展的局限，随后通过实际案例展示了 SME2 在卷积、矩阵乘法以及注意力机制中的加速路径。演示代码基于 Arm Compute Library，使用 C++ 接口调用 arm_sme2::gemm、arm_sme2::conv2d 等 API，配合编译器优化选项 -march=armv9.2-a+smep2，在 NPU‑less 的 Cortex‑A78AE 上实现了 2.3× 的吞吐提升。随后，专家分享了性能调优技巧，包括数据布局对齐、缓存块划分以及混合精度策略（FP16→BF16），并提供了 Profiling 脚本用于量化瓶颈。最后，围绕智能摄像头、语音识别和工业视觉三大行业应用，探讨了 SME2 与 Arm Neoverse 系列服务器的协同工作模式，展示了端云一体化推理流水线的完整实现方案。

Arm SME2 架构驱动的端侧 AI 推理性能提升实战

内容评分

摘要

正文

标签