专题:performance-optimization

按该标签聚合的大模型资讯列表(自动分类与标签提取)。26 篇文章。

官方Engineering at Meta2026/04/17 00:006800
统一AI代理平台优化性能
进攻防御共享架构设计

Meta推出统一AI代理平台,通过标准化工具与领域知识编码,实现大规模基础设施的性能优化。该平台同时支持主动优化和被动防御,显著提升能源效率并减少人工干预。核心组件包括MCP工具接口、Skills系统及AI回归求解器,已节省数百兆瓦电力,为产品创新释放工程师时间。

媒体InfoQ 中文2026/04/09 23:594830
SME2 指令集提升端侧矩阵运算性能
示例代码展示卷积、GEMM 与 Transformer 加速

本文回顾了 Arm 最新的 SME2 矩阵扩展指令集在端侧 AI 推理中的应用,解析了其相较于传统 SIMD 的性能优势,并通过 Compute Library 示例展示了卷积、GEMM 与 Transformer 加速效果。文章提供了编译选项、数据布局和混合精度调优技巧,以及在智能摄像头、语音识别等场景的落地案例,帮助开发者快速在 Cortex‑A78A…

官方The GitHub Blog2026/04/07 05:537860
多模型协作提升代码质量
实验模式启用跨模型审查

GitHub Copilot CLI推出Rubber Duck功能,通过多模型协作机制提升代码质量。该功能结合Claude Sonnet与GPT-5.4等不同模型家族,在复杂任务中实现74.7%性能提升,能发现架构缺陷、隐蔽错误和跨文件冲突等关键问题,适用于重构、高风险任务及测试覆盖验证场景。

官方Simon Willison2026/03/30 04:086870
无需操作 DOM 计算文本行高
离屏测量与换行模拟优化性能

Pretext 是一个无需操作 DOM 即可计算换行文本行高的浏览器库,通过离屏测量和模拟换行逻辑提升性能。支持多语言和表情符号,适用于浏览器应用的文本渲染优化。开发过程中借助 AI 工具进行辅助,验证了其在多种文档中的准确性。

媒体InfoQ 中文2026/03/26 18:005850
Token级推理监控方法
实现方案与性能挑战

本文介绍大模型推理中Token级可观测性的工程实践,旨在提升模型运行时的监控精度。通过日志追踪、事件记录和嵌入式监控等方法,实现对每个Token的处理状态分析,帮助优化推理性能。文章提供了代码示例和实际部署中的挑战分析,具有较高的技术参考价值。

媒体The Cloudflare Blog2026/03/23 21:007970
Turin处理器核心数翻倍,缓存容量减少
FL2重构解决缓存瓶颈,提升吞吐量

Cloudflare发布第13代服务器,采用AMD EPYC Turin处理器,通过重构FL1为FL2,实现吞吐量翻倍、延迟降低70%。核心亮点在于硬件与软件协同优化,提升边缘计算性能与能效。

官方Simon Willison2026/03/13 11:445980
Shopify CEO用AI代理优化Liquid模板引擎
解析渲染速度提升53%,内存分配减少61%

Shopify CEO Tobias Lütke利用AI驱动的自动研究系统,对20年历史的Liquid模板引擎进行93项微优化,实现解析渲染速度提升53%、内存分配减少61%。该方案依赖高覆盖率测试套件与AI代理自动实验,证明了AI编码代理在成熟开源项目中实现精细化性能调优的可行性,为AI辅助开发提供了可复用的工程范式。

官方Microsoft Azure Blog2026/03/05 01:007850
Azure IaaS支持AI、全球应用和关键业务系统
提供弹性扩展与多层安全防护

Azure IaaS资源中心是支持现代云基础设施设计、优化和运营的集中平台,强调性能、安全性、弹性扩展和成本效率。它为AI工作负载、全球应用和关键业务系统提供全面支持,帮助组织在数字化转型中保持创新与稳定。

官方Microsoft Azure Blog2026/03/03 01:007840
快照创建后立即恢复磁盘
提供接近满负荷的性能

Azure 推出增量快照即时访问功能,允许用户在快照创建后立即恢复磁盘,无需等待数据复制。该功能提升了恢复速度和性能,适用于关键业务场景,如快速回滚、维护和扩展。技术上通过高性能存储实现,支持跨区域恢复,并采用按使用计费模式。

官方Matklad2026/02/25 08:0028110

本文深入探讨了基于查询的编译器在实现增量编译时的原理、优势与局限。这类编译器通过将编译过程抽象为函数调用图,实现输入变化时仅重新计算受影响部分,并引入“提前终止”优化,以满足IDE对100毫秒级快速响应的需求。然而,文章指出其效率受限于源语言的依赖结构,对于复杂变化(如加密算法)或需冗余检查依赖的场景,增量效果不佳。作者强调,语言设计者应优先选择更直接高效…

社区Hacker News2026/02/12 21:3060

一项引人注目的研究展示了仅通过更换名为'Harness'的训练框架,便能在短短一个下午内大幅提升15款大型语言模型(LLM)的编码能力。这一成果凸显了训练工具和框架在LLM性能优化中的关键作用。研究表明,即使不修改模型本身或训练数据,优化训练过程也能带来显著的性能提升。这为LLM开发者提供了新的思路,即通过改进训练基础设施来快速增强模型在代码生成等复杂任务…

社区Reddit r/LocalLLaMA2026/02/10 17:0270

用户在16GB显存和96GB内存环境下运行GLM 4.5 Air UD-Q4_K_XL时遇到性能瓶颈。该模型生成速度仅3 t/s,远低于同等大小的其他模型(20 t/s)。用户尝试将专家层卸载到RAM以优化内存分配,但GLM 4.5 Air会崩溃,被迫使用`--fit`参数,导致显存耗尽和生成速度缓慢。用户寻求提升GLM 4.5 Air生成速度的方法,并疑…

社区Reddit r/LocalLLaMA2026/02/09 23:1880

用户在使用 LM Studio 将扫描的 PDF 文件转换为结构化输出时,遇到了处理速度缓慢的问题。当前流程是将 PDF 转为 JPG 图片,再加入提示词。即使在高性能设备上,效率依然低下。用户分享了相关的 Python 代码,并寻求关于优化此流程的建议,包括 LM Studio 本身或 MLX 等其他工具。

社区Reddit r/LocalLLaMA2026/02/09 22:1490

一位用户正在为本地隔离环境的大模型服务器寻求升级建议,预算约 5 万美元。现有配置为双路 Xeon Gold 6242、768GB DDR4 内存和三块 RTX Quadro 8000(144GB VRAM)。用户面临如何在提升模型能力(运行更大模型)与提高处理速度(TPS)之间进行权衡的难题,尤其是不确定部分内存卸载对性能的影响以及内存/CPU 升级的性…

社区Reddit r/LocalLLaMA2026/02/09 20:0970

作者将基于LFM2-350M的自研推理引擎从Python(或类似)移植到纯C语言。此前,该引擎在旧款Intel Core i5笔记本上仅有每秒4个token的速度。通过纯C语言重写单批次推理部分,并利用混合缓存及CBLAS GEMM API,作者成功将速度提升了3倍,达到每秒12个token。该项目从零开始构建,未使用gguf文件,且代码已在GitHub开…