专题：edge-ai

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 10 篇文章。

Arm SME2 架构驱动的端侧 AI 推理性能提升实战

媒体InfoQ 中文2026/04/09 23:594830

• SME2 指令集提升端侧矩阵运算性能

• 示例代码展示卷积、GEMM 与 Transformer 加速

本文回顾了 Arm 最新的 SME2 矩阵扩展指令集在端侧 AI 推理中的应用，解析了其相较于传统 SIMD 的性能优势，并通过 Compute Library 示例展示了卷积、GEMM 与 Transformer 加速效果。文章提供了编译选项、数据布局和混合精度调优技巧，以及在智能摄像头、语音识别等场景的落地案例，帮助开发者快速在 Cortex‑A78A…

Arm SME2 端侧 AI 性能优化 Arm Compute Library 混合精度

AI 领域最新动态：Z.ai 推出 GLM-5V‑Turbo 多模态编码模型、Claude 代码泄露争议与 OpenAI TRL v1.0 更新

原文

媒体Latent Space2026/04/02 15:044630

• Z.ai 发布 GLM-5V‑Turbo 多模态编码模型

• Anthropic Claude 代码泄露引发安全争议

4 月 4 日 AI 领域出现多项技术动态：Z.ai 推出面向 GUI 代理的多模态编码模型 GLM-5V‑Turbo；Anthropic Claude 代码意外泄露，引发安全与开源伦理争议；OpenAI 发布统一的 TRL v1.0 框架，提升后训练效率；同时出现边缘部署工具进展和 Discord 短暂宕机等行业信息。

GLM-5V‑Turbo 多模态模型 Claude代码泄露 TRL v1.0 框架端侧 AI 多模态编码

微软携手Armada推出Azure Local边缘AI解决方案

原文

官方Microsoft Azure Blog2026/04/01 00:006520

• 微软与Armada合作部署Azure Local边缘方案

• 支持断连环境下的AI工作负载运行

微软与Armada合作在Galleon模块化数据中心部署Azure Local，打造支持断连环境的自主AI解决方案。该平台结合本地化云服务与硬件基础设施，满足国防、能源等行业的数据主权和实时分析需求，提供超融合存储、多网络技术及合规性保障，为边缘AI部署提供参考架构。

主权云数据合规自主AI 数据主权 Sovereign Private Cloud

TinyLoRA：以13个参数实现高效推理的新型模型架构

原文

社区Hacker News2026/03/27 20:115630

• 参数高效微调技术

• 13参数实现强推理

TinyLoRA是基于Transformer的轻量化模型架构，仅需13个参数即可实现高效推理。通过结构优化降低计算和存储需求，保持高性能，适用于嵌入式设备等资源受限场景。该技术突破传统参数微调范式，为边缘计算提供新思路，具有实际部署价值。

参数高效微调 Transformer架构低功耗计算端侧 AI 模型压缩

Cloudflare Workers AI集成Kimi K2.5：256K上下文大模型的边缘推理革命

原文

媒体The Cloudflare Blog2026/03/20 03:536960

• Workers AI上线Kimi K2.5大模型，支持256k上下文

• 新增前缀缓存与会话亲和性提升推理效率

Cloudflare在Workers AI上上线Kimi K2.5大模型，支持256k上下文与多模态输入，专为智能代理优化。通过定制推理栈、前缀缓存与会话亲和性等技术，实现边缘高效推理。实际应用中，代码审查成本降低77%，Agents SDK已默认集成，推动AI代理在边缘端规模化落地。

Workers AI Kimi K2.5 前缀缓存会话亲和性端侧 AI

在AI Gateway上部署GPT-5.4 Mini与Nano：轻量级LLM的实战指南

原文

官方Vercel Blog2026/03/17 21:005760

• 部署GPT-5.4 Mini和Nano模型于AI Gateway平台

• 模型经量化压缩，适配低显存环境（8-16GB）

本文介绍在AI Gateway平台部署GPT-5.4 Mini和Nano轻量模型的全流程，适用于资源受限环境。模型通过量化压缩，在低显存下保持接近完整版的NLP性能，支持文本生成与问答任务。核心亮点是实测性能数据与平台集成方案，为边缘AI部署提供可落地参考。

GPT‑5.4 模型量化轻量级大模型 AI 网关端侧 AI

高通发布骁龙可穿戴平台至尊版：20 亿参数模型落地手表等微型设备

原文

媒体量子位2026/03/04 11:116730

高通在 MWC 推出骁龙可穿戴平台至尊版，采用 3 nm 双核 NPU 架构，提供 10 TOPS 算力，可在手表、眼镜等微型设备本地运行 20 亿参数大模型，实现低功耗本地推理，推动个人 AI 全场景落地。

骁龙可穿戴平台至尊版端侧 AI NPU 可穿戴设备 3 nm 工艺

Jetson 边缘计算实战：开源视觉语言模型（VLM）部署指南

原文

媒体Hugging Face Blog2026/02/24 08:004680

本文提供在 NVIDIA Jetson 边缘计算设备上部署开源视觉语言模型（VLM）的全面指南。内容涵盖模型选择、针对 Jetson 平台的模型优化（如量化、剪枝）、代码适配以及实际应用中的测试与调优。旨在帮助开发者高效集成 VLM，赋能智能视觉系统，扩展边缘设备的智能能力。

Jetson 视觉语言模型端侧 AI 模型部署

AMD NPU赋能SDXL-Turbo：Nexa AI携手加速AI图像生成新纪元

原文

社区Reddit r/LocalLLaMA2026/02/22 16:305650

AMD与Nexa AI合作，成功将SDXL-Turbo图像生成模型部署至AMD NPU。通过Nexa AI的模型优化技术，SDXL-Turbo在AMD NPU上实现了高效推理，为开发者在边缘设备上构建强大的AI应用（如图像生成）提供了可能。此次合作标志着AI模型在终端设备上部署能力的显著提升，有望加速AI技术的普及和应用落地。

AMD NPU SDXL-Turbo Nexa AI AI图像生成端侧 AI

专用AI代理盒：Jetson Orin Nano Super，20W功耗实现67 TOPS，全天候运行OpenClaw

原文

社区Reddit r/LocalLLaMA2026/02/08 17:4870

一位用户分享了其基于Jetson Orin Nano Super构建的专用AI代理盒设置。该设备功耗仅20W，提供67 TOPS算力，全天候运行OpenClaw，主要作为AI网关处理消息、浏览器自动化、监控及工具执行等任务，而非本地LLM推理（依赖云API）。尽管8GB内存不足以进行本地大模型推理，但其低功耗和GPU加速使其成为高效、经济的AI代理解决方案…

Jetson Orin Nano Super AI代理 OpenClaw 低功耗端侧 AI