专题:edge-ai

按该标签聚合的大模型资讯列表(自动分类与标签提取)。10 篇文章。

媒体InfoQ 中文2026/04/09 23:594830
SME2 指令集提升端侧矩阵运算性能
示例代码展示卷积、GEMM 与 Transformer 加速

本文回顾了 Arm 最新的 SME2 矩阵扩展指令集在端侧 AI 推理中的应用,解析了其相较于传统 SIMD 的性能优势,并通过 Compute Library 示例展示了卷积、GEMM 与 Transformer 加速效果。文章提供了编译选项、数据布局和混合精度调优技巧,以及在智能摄像头、语音识别等场景的落地案例,帮助开发者快速在 Cortex‑A78A…

媒体Latent Space2026/04/02 15:044630
Z.ai 发布 GLM-5V‑Turbo 多模态编码模型
Anthropic Claude 代码泄露引发安全争议

4 月 4 日 AI 领域出现多项技术动态:Z.ai 推出面向 GUI 代理的多模态编码模型 GLM-5V‑Turbo;Anthropic Claude 代码意外泄露,引发安全与开源伦理争议;OpenAI 发布统一的 TRL v1.0 框架,提升后训练效率;同时出现边缘部署工具进展和 Discord 短暂宕机等行业信息。

官方Microsoft Azure Blog2026/04/01 00:006520
微软与Armada合作部署Azure Local边缘方案
支持断连环境下的AI工作负载运行

微软与Armada合作在Galleon模块化数据中心部署Azure Local,打造支持断连环境的自主AI解决方案。该平台结合本地化云服务与硬件基础设施,满足国防、能源等行业的数据主权和实时分析需求,提供超融合存储、多网络技术及合规性保障,为边缘AI部署提供参考架构。

社区Hacker News2026/03/27 20:115630
参数高效微调技术
13参数实现强推理

TinyLoRA是基于Transformer的轻量化模型架构,仅需13个参数即可实现高效推理。通过结构优化降低计算和存储需求,保持高性能,适用于嵌入式设备等资源受限场景。该技术突破传统参数微调范式,为边缘计算提供新思路,具有实际部署价值。

媒体The Cloudflare Blog2026/03/20 03:536960
Workers AI上线Kimi K2.5大模型,支持256k上下文
新增前缀缓存与会话亲和性提升推理效率

Cloudflare在Workers AI上上线Kimi K2.5大模型,支持256k上下文与多模态输入,专为智能代理优化。通过定制推理栈、前缀缓存与会话亲和性等技术,实现边缘高效推理。实际应用中,代码审查成本降低77%,Agents SDK已默认集成,推动AI代理在边缘端规模化落地。

官方Vercel Blog2026/03/17 21:005760
部署GPT-5.4 Mini和Nano模型于AI Gateway平台
模型经量化压缩,适配低显存环境(8-16GB)

本文介绍在AI Gateway平台部署GPT-5.4 Mini和Nano轻量模型的全流程,适用于资源受限环境。模型通过量化压缩,在低显存下保持接近完整版的NLP性能,支持文本生成与问答任务。核心亮点是实测性能数据与平台集成方案,为边缘AI部署提供可落地参考。

媒体Hugging Face Blog2026/02/24 08:004680

本文提供在 NVIDIA Jetson 边缘计算设备上部署开源视觉语言模型(VLM)的全面指南。内容涵盖模型选择、针对 Jetson 平台的模型优化(如量化、剪枝)、代码适配以及实际应用中的测试与调优。旨在帮助开发者高效集成 VLM,赋能智能视觉系统,扩展边缘设备的智能能力。

社区Reddit r/LocalLLaMA2026/02/22 16:305650

AMD与Nexa AI合作,成功将SDXL-Turbo图像生成模型部署至AMD NPU。通过Nexa AI的模型优化技术,SDXL-Turbo在AMD NPU上实现了高效推理,为开发者在边缘设备上构建强大的AI应用(如图像生成)提供了可能。此次合作标志着AI模型在终端设备上部署能力的显著提升,有望加速AI技术的普及和应用落地。

社区Reddit r/LocalLLaMA2026/02/08 17:4870

一位用户分享了其基于Jetson Orin Nano Super构建的专用AI代理盒设置。该设备功耗仅20W,提供67 TOPS算力,全天候运行OpenClaw,主要作为AI网关处理消息、浏览器自动化、监控及工具执行等任务,而非本地LLM推理(依赖云API)。尽管8GB内存不足以进行本地大模型推理,但其低功耗和GPU加速使其成为高效、经济的AI代理解决方案…