首页/详情

Cloudflare “AI 训练重定向”功能:自动把旧文档引导至最新版本

The Cloudflare Blog2026/04/17 21:00机翻/自动摘要/自动分类
0 阅读

内容评分

技术含量
7/10
营销水分
5/10

摘要

Cloudflare 推出 AI 训练重定向功能,自动将 AI 训练爬虫请求的过时文档重定向或指向 canonical 标记的最新页面。通过在 AI Crawl Control 中一键开启,并配合 AI Insights 状态码分析,显著降低 OpenAI、Anthropic、Meta 等模型厂商对旧文档的抓取量,确保训练数据保持最新。

正文

过去六年,Cloudflare 的 Wrangler CLI 多次迭代,导致命令、配置和开发者交互方式频繁变化。为旧版本提供的文档虽已标记为 deprecation banner 并使用 noindex meta tag 阻止搜索引擎收录,同时添加 canonical 指向最新文档,但 AI 训练爬虫并不总能识别这些信号,仍会抓取过时内容。为此,Cloudflare 推出 AI 训练重定向(Redirects for AI Training) 功能:

  • 核心原理:检测并验证 AI 训练爬虫的 User‑,自动返回 301/302 重定向或依据 <link rel="canonical"> 将请求指向最新文档。
  • 启用方式:在 Cloudflare 控制台的 AI Crawl Control 页面打开开关;可通过 Configuration RulesCloudflare for SaaS 实现路径级别的细粒度控制。
  • 配套可视化:AI Insights 页面展示爬虫收到的 HTTP 状态码分布(2xx、3xx、4xx、5xx),帮助运营者监测重定向效果。
  • 实测数据:2026 年 3 月,OpenAI、Anthropic、Meta 对旧版文档的抓取次数分别为 46 000、3 600、1 700 次。启用该功能后,过时页面的请求量显著下降,说明重定向有效阻止了陈旧内容进入训练数据。
  • 技术细节:利用 RFC 6596 定义的 <link rel="canonical"> 与 HTTP 3xx 状态码配合,兼容主流搜索引擎和 AI 爬虫的内容发现逻辑;同时保留 noindex 以防止搜索引擎索引。

该功能面向所有付费 Cloudflare 计划,开启即生效,无需额外代码改动。未来 Cloudflare 将继续完善 AI 爬虫识别规则和统计报表,以提升内容新鲜度在训练中的可靠性。

标签