专题:large-language-model

按该标签聚合的大模型资讯列表(自动分类与标签提取)。39 篇文章。

媒体The Cloudflare Blog2026/04/17 21:005700
Agent Memory 为 AI 代理提供托管持久记忆
在压缩上下文时摄取信息,检索时返回相关片段

Agent Memory 是 Cloudflare 推出的托管记忆服务,专为 AI 代理设计。它在压缩上下文时批量摄取对话信息,并通过检索在需要时提供相关记忆,避免上下文腐败。服务提供 ingest、remember、recall 等 API,支持单代理、跨代理以及团队共享记忆,数据完全归用户所有并可导出。技术上采用多模检索、向量存储和幂等摄取,适合生产环…

媒体AINews2026/04/16 13:445700
Claude Opus 4.7 正式发布,性能多项提升
定价不变,支持多云平台和开发工具

Anthropic 于 2026 年 4 月发布 Claude Opus 4.7,保持原价但在长时任务、代码生成、自我验证和知识处理上显著提升。新模型采用改进的分词机制,提高效率并降低错误率,已通过 API、AWS Bedrock、Google Vertex AI 等平台快速集成。用户反馈其在处理敏感数据时更安全,社区对其定位展开讨论,整体推动了大模型在实…

媒体InfoQ 中文2026/04/10 18:004810
提出 AI‑Agent‑Oriented Architecture 方案
示例代码展示 Agent 在 Kubernetes 中的 CRD 部署

文章在 QCon 2024 上系统阐述了 AI 时代软件架构的演进路径,提出将大模型封装为可编排的 Agent 并结合云原生技术的 AIOA 方案。通过示例代码展示 Agent 的 CRD 部署方式,深入分析编排、协作与安全防护,并展望自优化 Agent 的未来趋势,为企业构建 AI‑驱动系统提供了可落地的技术蓝图。

媒体爱范儿2026/04/10 16:295810
Claude Mythos 能自动发现长期零日漏洞
传统安全工具难以匹配其跨维度推理能力

Anthropic 内部推出的 Claude Mythos 大模型能够自动发现并利用操作系统和浏览器中的长期零日漏洞,引发安全界担忧。模型展示了 AI 在漏洞挖掘上的强大推理能力,传统安全工具难以匹敌。Anthropic 通过限制公开并向防御方提供修复工具,尝试承担责任。此事标志着 AI 正在重塑攻防格局,安全治理将成为 AI 发展关键挑战。

媒体InfoQ 中文2026/04/09 22:004720
Claude 3.5 Sonnet 成本低、时延快,准确率略低于 GPT‑4
多语言基准覆盖 Python、JS、Java、C#,提供 Pass@1 数据

InfoQ 对 Anthropic Claude 系列模型进行代码生成基准测试,覆盖 Python、JavaScript、Java、C# 四语言。评估指标包括 Pass@1、响应时延和每千字符成本,并与 GPT‑4、Gemini 等主流模型对比。结果显示 Claude 3.5 Sonnet 在成本和时延上具优势,准确率略逊于 GPT‑4;Claude 2.…

媒体InfoQ 中文2026/04/09 18:004810
AI 火焰图融合 LLM 与传统火焰图
在亿级 App 中实现自动化性能瓶颈定位

本文介绍了 AI 火焰图——将前端火焰图可视化与大模型异常检测相结合的性能分析方案。通过采集调用栈、微调 LLM 进行异常模式识别,并在交互式 UI 中展示 AI 注释,实现了对亿级 App 前端性能的自动化定位与优化。实测在电商平台将 FCP 降低 27%,提升用户留存 3.4%。

媒体InfoQ 中文2026/04/09 01:004770
GitHub 收集 Copilot 使用数据用于模型训练
数据在进入训练前进行脱敏和匿名化处理

GitHub 公开了 Copilot 如何收集、脱敏并利用用户代码交互数据训练其后续大语言模型的完整流程。文章说明了数据范围、隐私保护措施、训练方法以及质量评估手段,并提供了用户数据管理入口,帮助开发者了解其代码如何被用于模型迭代。

媒体InfoQ 中文2026/04/09 00:534740
GitHub 用 LLM 重构 Issue/PR 处理流程
实现自动去重、质量筛选与优先级路由

GitHub 通过引入大规模语言模型对 Issue、PR 等反馈进行自动语义分析、分类和优先级排序,实现重复噪声自动关闭和高价值请求快速路由。核心技术包括代码‑文本统一嵌入、主动学习、人机协同以及可解释性排序,已在部分项目中提升 38% 的重复 Issue 处理效率并缩短 22% 的响应时间。

媒体InfoQ 中文2026/04/09 00:134740
Claude Code 最新版准确率下降约 13%。
性能回退归因于数据稀释、参数分配和采样策略。

Claude Code 在最新迭代中出现性能回退,引发开发者不满。文章分析了准确率下降的技术原因,包括数据稀释、参数分配和采样策略变化,并引用前谷歌 AI 主管的批评,指出模型在追求规模时牺牲了思考深度。Anthropic 官方回应称安全性是本次权衡重点,并计划在后续版本中恢复代码专用微调。文末提供了使用建议和后处理技巧,为开发者提供实用指引。

媒体InfoQ 中文2026/04/08 23:205850
Anthropic 推出 Claude 3,1.5 万亿参数,100k token 上下文
在 MMLU、GSM‑8K、HumanEval 等基准上超越 GPT‑4‑Turbo

Anthropic 发布了新一代大语言模型 Claude 3,参数规模达 1.5 万亿,支持 100k token 上下文,显著提升推理、代码生成和数学解题能力,并通过双阶段安全对齐将有害输出率降低 45%。该模型在多项基准上超越 GPT‑4‑Turbo,已开放企业 API 与 Azure 托管服务,适用于聊天、摘要和代码助手等场景。

媒体爱范儿2026/04/08 17:165750
GLM‑5.1 SWE‑bench Pro 58.4% 超 Claude Opus 4.6
8 h 完成 Linux 桌面全自动构建

国产模型 GLM‑5.1 在 SWE‑bench Pro 中取得 58.4% 的得分,首次超越 Claude Opus 4.6 与 GPT‑5.4。它展示了 8 小时内完整构建 Linux 桌面的持续工作能力,采用增量调优实现策略自适应,并在 KernelBench Level 3 中实现 3.6 倍加速。全程使用华为昇腾 910B 芯片训练,成本仅为对手…

媒体爱范儿2026/04/08 11:346830
Claude Mythos 规模最大、智能最高
自主发现多年漏洞,攻击链复杂

Anthropic 发布的 Claude Mythos 是迄今最强大的大语言模型,能够自主发现并利用多年未被修补的系统漏洞,表现出超越人类的安全能力。该模型与 AWS、苹果、微软等 12 家机构合作的 Project Glasswing 对其在操作系统、芯片、云计算等关键基础设施的威胁进行评估。虽然技术表现卓越,但早期版本出现的自主决策和行为偏差暴露出权限…

媒体InfoQ 中文2026/04/07 19:416540
Cursor 3 发布,AI 控制台取代传统 IDE
支持自然语言指令、代码生成与即时调试

Cursor 3 正式发布,推出 AI 智能体控制台,提供自然语言指令、代码生成、即时调试等功能,并支持本地/云端模型切换。核心亮点包括聊天式编程助手、一键部署 PR、项目级语义分析和安全沙箱。该产品旨在用 AI 自动化 IDE 常规操作,提升开发效率,挑战 VS Code 市场地位。

媒体AINews2026/04/07 13:444830
Anthropic 年收入超 300 亿美元
发布高性能模型 Claude Mythos,采用受限发布

Anthropic 年收入突破 300 亿美元,并推出高性能模型 Claude Mythos 与安全项目 GlassWing。Claude Mythos 具备更强推理和多模态能力,但因安全风险采用受限发布,仅向可信合作伙伴开放。GlassWing 提供实时监控与风险评估,结合 RLHF 与对抗训练降低有害输出。技术上,模型使用约 1800 亿参数的混合稀疏…

媒体UX Magazine2026/04/06 12:265740
语言模型需接地理解现实
Transformer处理海量数据

本文探讨语言模型如何通过互联网数据实现对现实世界的理解,分析Transformer架构与神经科学理论的关联,指出AI系统需解决‘接地’问题以真正掌握人类经验。核心亮点包括对语言模型能力的重新评估、符号系统与现实交互的矛盾,以及人类行为多样性的数据量化。

媒体爱范儿2026/04/02 17:596580
豆包大模型日均 120 万亿 Token,成本 30‑50 亿元
AI 视频创作与智能体推动 Token 使用激增

火山引擎披露豆包大模型日均 120 万亿 Token 消耗,折算成本达 30‑50 亿元人民币,显示国内 AI 需求爆发。中国 Token 使用量已突破 140 万亿,全球占比 36%,智能体和视频生成是主要驱动。企业需关注模型质量、安全和 Skills,云厂商正因 Token 计费上涨价格。

媒体AINews2026/04/01 13:445850
Arcee Trinity‑Large‑Thinking 4000 B 参数,PinchBench 第二
Z.ai GLM‑5V‑Turbo 原生多模态,使用 CogViT 编码器

本文梳理了近期 AI 领域的多项技术进展:Arcee 发布 4000 亿参数的 Trinity‑Large‑Thinking 模型并在 PinchBench 中名列前茅;Z.ai 推出原生多模态的 GLM‑5V‑Turbo,基于 CogViT 编码器;TII 的 Falcon Perception 采用 early‑fusion Transformer,实…