Cloudflare “AI 训练重定向”功能:自动把旧文档引导至最新版本
The Cloudflare Blog2026/04/17 21:00机翻/自动摘要/自动分类
0 阅读
内容评分
技术含量
7/10
营销水分
5/10
摘要
Cloudflare 推出 AI 训练重定向功能,自动将 AI 训练爬虫请求的过时文档重定向或指向 canonical 标记的最新页面。通过在 AI Crawl Control 中一键开启,并配合 AI Insights 状态码分析,显著降低 OpenAI、Anthropic、Meta 等模型厂商对旧文档的抓取量,确保训练数据保持最新。
正文
过去六年,Cloudflare 的 Wrangler CLI 多次迭代,导致命令、配置和开发者交互方式频繁变化。为旧版本提供的文档虽已标记为 deprecation banner 并使用 noindex meta tag 阻止搜索引擎收录,同时添加 canonical 指向最新文档,但 AI 训练爬虫并不总能识别这些信号,仍会抓取过时内容。为此,Cloudflare 推出 AI 训练重定向(Redirects for AI Training) 功能:
- 核心原理:检测并验证 AI 训练爬虫的 User‑,自动返回 301/302 重定向或依据
<link rel="canonical">将请求指向最新文档。 - 启用方式:在 Cloudflare 控制台的 AI Crawl Control 页面打开开关;可通过 Configuration Rules 或 Cloudflare for SaaS 实现路径级别的细粒度控制。
- 配套可视化:AI Insights 页面展示爬虫收到的 HTTP 状态码分布(2xx、3xx、4xx、5xx),帮助运营者监测重定向效果。
- 实测数据:2026 年 3 月,OpenAI、Anthropic、Meta 对旧版文档的抓取次数分别为 46 000、3 600、1 700 次。启用该功能后,过时页面的请求量显著下降,说明重定向有效阻止了陈旧内容进入训练数据。
- 技术细节:利用 RFC 6596 定义的
<link rel="canonical">与 HTTP 3xx 状态码配合,兼容主流搜索引擎和 AI 爬虫的内容发现逻辑;同时保留noindex以防止搜索引擎索引。
该功能面向所有付费 Cloudflare 计划,开启即生效,无需额外代码改动。未来 Cloudflare 将继续完善 AI 爬虫识别规则和统计报表,以提升内容新鲜度在训练中的可靠性。