专题:mixed-precision

按该标签聚合的大模型资讯列表(自动分类与标签提取)。2 篇文章。

媒体InfoQ 中文2026/04/09 23:594830
SME2 指令集提升端侧矩阵运算性能
示例代码展示卷积、GEMM 与 Transformer 加速

本文回顾了 Arm 最新的 SME2 矩阵扩展指令集在端侧 AI 推理中的应用,解析了其相较于传统 SIMD 的性能优势,并通过 Compute Library 示例展示了卷积、GEMM 与 Transformer 加速效果。文章提供了编译选项、数据布局和混合精度调优技巧,以及在智能摄像头、语音识别等场景的落地案例,帮助开发者快速在 Cortex‑A78A…

社区Reddit r/LocalLLaMA2026/02/20 22:422600

作者在 RTX 2060(6 GB)显卡上尝试训练 TinyRefinementModel,受显存限制只能使用 384 维特征,采用梯度累积等技巧将显存需求压到可接受范围,训练 5 小时后 loss 降至 5.1 并中止。后续计划将模型迁移至 TPU Spot 继续训练,文中提供了关键超参数和代码链接,适合资源受限的开发者参考。