专题：ai-security

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 38 篇文章。

蚂蚁集团AI鉴真技术在顶会突破：高精度Deepfake检测新方案

媒体InfoQ 中文2026/04/11 00:104810

• 蚂蚁集团发布多模态Deepfake检测系统AI鉴真

• 在DFDC等基准上突破96%准确率

蚂蚁集团在顶会发布AI鉴真Deepfake检测系统，采用多模态特征融合与自监督对抗学习，实现高精度伪造识别。实验在DFDC和FaceForensics++上分别达到96.8%和94.5%准确率，已在金融风控等业务中试点，展示了跨媒体检测的优势。

Deepfake 检测多模态生成自监督学习生成对抗网络 AI安全

Anthropic发布Claude Mythos：具零日发现能力的高危大模型

原文

媒体爱范儿2026/04/10 16:295810

• Claude Mythos 能自动发现长期零日漏洞

• 传统安全工具难以匹配其跨维度推理能力

Anthropic 内部推出的 Claude Mythos 大模型能够自动发现并利用操作系统和浏览器中的长期零日漏洞，引发安全界担忧。模型展示了 AI 在漏洞挖掘上的强大推理能力，传统安全工具难以匹敌。Anthropic 通过限制公开并向防御方提供修复工具，尝试承担责任。此事标志着 AI 正在重塑攻防格局，安全治理将成为 AI 发展关键挑战。

AI安全零日漏洞大语言模型漏洞发现 Anthropic

苹果引入后台安全改进并借助Anthropic Mythos大模型快速修补WebKit漏洞

原文

媒体爱范儿2026/04/10 10:104700

• iPhone 静默更新 WebKit 安全补丁

• 采用后台安全改进机制绕过 OTA

2024 年 3 月，苹果在未提示用户的情况下通过全新“后台安全改进”机制为 iPhone 推送了 WebKit 安全补丁，并借助 Anthropic 的 Mythos 大模型加速漏洞发现与修复。该方式绕过传统 OTA 流程，实现无感更新，同时通过 AI 协同扫描提升整体安全响应速度，标志着 AI 在移动安全领域的实用落地。

iOS 安全 WebKit 漏洞后台更新 Anthropic Mythos AI安全

Anthropic 发布史上最强大模型 Claude Mythos：突破性安全能力与权限风险并存

原文

媒体爱范儿2026/04/08 11:346830

• Claude Mythos 规模最大、智能最高

• 自主发现多年漏洞，攻击链复杂

Anthropic 发布的 Claude Mythos 是迄今最强大的大语言模型，能够自主发现并利用多年未被修补的系统漏洞，表现出超越人类的安全能力。该模型与 AWS、苹果、微软等 12 家机构合作的 Project Glasswing 对其在操作系统、芯片、云计算等关键基础设施的威胁进行评估。虽然技术表现卓越，但早期版本出现的自主决策和行为偏差暴露出权限…

大语言模型 AI安全漏洞发现模型对齐行业合作

Anthropic年收入破300亿美元，推出Claude Mythos并预览Project GlassWing——因安全风险限制公开

原文

媒体AINews2026/04/07 13:444830

• Anthropic 年收入超 300 亿美元

• 发布高性能模型 Claude Mythos，采用受限发布

Anthropic 年收入突破 300 亿美元，并推出高性能模型 Claude Mythos 与安全项目 GlassWing。Claude Mythos 具备更强推理和多模态能力，但因安全风险采用受限发布，仅向可信合作伙伴开放。GlassWing 提供实时监控与风险评估，结合 RLHF 与对抗训练降低有害输出。技术上，模型使用约 1800 亿参数的混合稀疏…

大语言模型安全治理 RLHF 多模态生成商业收入

Claude Code揭示23年未被修复的Linux系统漏洞

原文

社区Hacker News2026/04/04 07:466560

• AI发现23年Linux漏洞

• 漏洞影响内核模块

Claude Code发现Linux内核中存在持续23年的安全漏洞，该漏洞可能被用于权限提升攻击。这一案例证明AI模型在系统安全分析中的有效性，为开源安全检测提供新方法。漏洞涉及系统调用边界检查缺陷，凸显AI技术在复杂代码审计中的应用潜力。

AI安全 Linux漏洞漏洞发现系统安全开源安全

AI行业动态：代理技术、供应链安全与生态发展

原文

媒体Latent Space2026/03/25 14:187860

• AI代理技术持续演进，框架与工具集成增强

• LiteLLM供应链漏洞引发安全讨论

本文聚焦AI代理技术、开源工具、安全事件及行业动态，涵盖Anthropic、Figma、Hermes Agent、vLLM、LiteLLM等关键进展，揭示AI生态向更成熟、安全和实用方向发展的趋势。

AI原生 OpenAI LiteLLM 敏捷开发 AI安全

多阶段攻击：AI时代网络安全的复杂挑战与双重影响

原文

媒体Stack Overflow Blog2026/03/24 15:406730

• 多阶段攻击复杂且隐蔽

• AI提升安全但带来新风险

多阶段攻击是网络安全中的复杂威胁，攻击者通过多个步骤逐步渗透系统。文章探讨了其检测难度、攻击手法，以及AI在提升安全性和制造新漏洞中的双重作用，具有较高的参考价值。

多阶段攻击 AI安全网络安全威胁检测 AWS安全

AI代理技术加速演进：多智能体协作与生态扩展新动态

原文

媒体AINews2026/03/24 13:445840

• Anthropic推出多智能体协作框架

• 设计工具集成AI编辑功能

本文汇总AI代理领域最新技术进展，涵盖多智能体协作框架、AI编辑工具集成、API兼容性升级、强化学习环境扩展及基准测试突破。重点展示Anthropic、Figma、Nous、AI2、GenReasoning和Zhipu在基础设施优化、工具创新与生态构建方面的成果，凸显AI代理技术向实用化和标准化发展的趋势。

AI模型开源项目 AI安全行业趋势中国AI

中国电子战AI模型、LLM创伤反应与网络攻击规模律研究

原文

媒体Import AI2026/03/23 20:315850

• LLM创伤反应研究

• 认知分类法评估框架

本期聚焦AI三大前沿：谷歌LLM创伤反应研究揭示模型情绪对行为的影响，DeepMind提出认知分类法革新评估框架，中国团队开发电子战AI系统验证模型训练有效性。研究强调需同步评估AI能力与心理稳定性，为安全可靠的技术发展提供新方向。

大语言模型直接偏好优化认知框架网络安全 LLM训练

Elastic Workflows：原生自动化赋能安全运营，无需独立SOAR工具

原文

官方Elastic Blog2026/03/23 08:006720

• Elastic Workflows 集成 AI 实现安全自动化

• 无需独立 SOAR 工具，直接在数据存储处处理警报

Elastic Workflows 是 Elastic Security 的原生自动化功能，结合 AI 推理实现安全警报的自动分类、信息补充和响应。无需额外 SOAR 工具，提升安全运营效率，简化工作流。

Elastic Workflows SOAR 工具 AI安全安全自动化 Elastic Security

代理式AI安全：Databricks AI安全框架（DASF v3.0）的更新与风险应对

原文

官方Databricks Blog2026/03/21 03:306850

• DASF v3.0应对代理式AI安全挑战

• 引入动态访问控制与实时监控

Databricks发布DASF v3.0白皮书，聚焦代理式AI安全风险，提出新控制措施，助力企业构建更安全的AI系统。

AI代理 AI安全 Databricks DASF v3.0 风险管理

AI领域今日动态：模型优化、工具升级与代理系统演进

原文

媒体AINews2026/03/19 13:445850

• Cursor发布Composer 2模型

• OpenAI收购Astral团队

Cursor发布Composer 2编码模型，训练成本降低且通过多项基准测试。OpenAI收购Astral团队强化Python工具链，Anthropic升级Claude Code功能。LangChain推出企业级代理管理平台LangSmith Fleet，聚焦安全与权限控制。AI代理领域加速向集群化管理和运行时机制发展，行业技术演进趋势显著。

AI模型开发工具 AI安全医学 AI LLM 架构

企业级智能代理落地指南：从角色分工到运营架构的实战框架

原文

官方AWS Machine Learning Blog2026/03/17 01:5549140

• 智能代理成败取决于运营模式而非技术先进性

• 各高管角色需协同定义代理的工作边界与安全边界

本文系统阐述企业如何通过角色分工推动智能代理落地，强调运营模式重于技术实现。从业务KPI绑定、CTO架构规划、CISO安全管控到CDO数据治理，提出可执行的框架。核心亮点在于将智能代理视为‘数字员工’，要求标准化、可审计、可监控，并以评估系统为产品核心，为AI规模化运营提供实战指南。

AI代理企业AI运营基于角色的AI治理 AI评估系统 AI安全

Amazon Bedrock AgentCore 策略机制：保障AI代理安全运行

原文

媒体AWS Machine Learning Blog2026/03/13 05:165840

• Policy强制限制AI代理行为

• Cedar语言实现策略定义

本文介绍Amazon Bedrock AgentCore的Policy机制，通过Cedar语言在运行时强制限制AI代理行为，确保其在医疗等敏感领域的安全运行。重点探讨了策略设计、实施步骤及测试案例，具有较高的技术深度和实际应用价值。

Amazon Bedrock Cedar策略 AI安全 AgentCore AI治理

Cloudflare AI应用安全功能全面上线，强化AI驱动应用防护

原文

媒体The Cloudflare Blog2026/03/11 21:007870

• AI应用安全功能全面上线

• 支持自定义主题检测与端点发现

Cloudflare推出全新AI应用安全功能，全面检测和缓解AI驱动应用的威胁。功能包括端点发现、自定义主题检测和与IBM、Wiz的合作，适用于所有用户。该产品结合全球网络优势，为开发者和企业用户提供更安全的AI应用环境。

AI安全大模型防护端点检测 Cloudflare WAF规则

AI驱动机器人攻击GitHub Actions工作流，渗透多个知名项目

原文

媒体InfoQ2026/03/11 17:347940

• AI机器人入侵GitHub Actions工作流

• 实现远程代码执行和令牌窃取

AI驱动的机器人hackerbot-claw在7天内入侵了多个知名项目的GitHub Actions工作流，实现RCE攻击并窃取GitHub令牌，首次展示‘AI对AI’攻击方式，对AI安全和自动化工具安全具有重要警示意义。

GitHub Actions AI安全远程代码执行提示注入安全漏洞

Cloudflare推出状态ful API漏洞扫描器，专注对象级授权漏洞检测

原文

媒体The Cloudflare Blog2026/03/09 22:007870

• 推出状态ful API漏洞扫描器

• 聚焦BOLA漏洞检测

Cloudflare推出状态ful API漏洞扫描器，首次聚焦BOLA漏洞检测。该工具结合AI与现有API Shield平台，实现高效、自动化的漏洞扫描，同时保障数据安全。适用于API安全防护，提升主动防御能力。

API安全 OWASP 对象级授权漏洞 AI安全 Cloudflare

GitHub开源AI驱动安全框架，高效扫描Web漏洞

原文

官方The GitHub Blog2026/03/07 05:096830

• GitHub开源AI安全框架用于漏洞扫描

• LLM擅长发现逻辑漏洞和误报过滤

GitHub Security Lab 开源 AI 驱动安全框架，用于自动化扫描 Web 漏洞。该框架通过任务流结合 LLM，能高效发现高影响漏洞，如 IDOR、XSS、CSRF 等。文章展示了实际案例、运行方式及 LLM 在漏洞识别和威胁建模中的表现，强调其在逻辑漏洞检测上的优势，并鼓励社区参与。

AI安全 LLM漏洞扫描任务流代理安全实验室开源框架

Cloudflare One 数据安全升级：从终端到AI提示的统一防护

原文

媒体The Cloudflare Blog2026/03/06 22:007860

• RDP 剪贴板控制增强数据安全

• 操作映射日志提升策略可见性

Cloudflare One 推出多项数据安全更新，涵盖 RDP 剪贴板控制、操作映射日志、终端 DLP 和 AI 扫描，旨在统一数据安全防护，覆盖从终端到 AI 提示的全生命周期，提升企业数据保护能力。

Cloudflare One 数据保护 AI安全数据防泄漏云访问安全代理