怎麼阻擋 AI 訓練我的內容?
阻擋 AI 訓練只需在 robots.txt 對 GPTBot、ClaudeBot、Google-Extended、PerplexityBot 加 Disallow。訓練爬蟲與搜尋爬蟲是兩套,擋訓練不影響搜尋引用。
AI 廠商把「訓練爬蟲」與「搜尋爬蟲」分為不同 user-agent,方便網站獨立管理。例如 OpenAI 的 `GPTBot`(訓練)vs `OAI-SearchBot`(ChatGPT Search);Google 的 `Googlebot`(搜尋索引)vs `Google-Extended`(Gemini 訓練);Perplexity 的 `PerplexityBot`(訓練)vs `Perplexity-User`(即時搜尋代理)。
若想擋訓練但保留搜尋(即「不希望被當訓練資料但希望被 AI 引用」),robots.txt 範例:
``` User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: PerplexityBot Disallow: / ``` 注意:上述配置仍允許 ChatGPT Search、Gemini in Search、Perplexity 即時搜尋抓取你的網站。完整阻擋所有 AI 接觸請另外擋搜尋型爬蟲。
重點
- 訓練爬蟲與搜尋爬蟲是不同 user-agent
- 擋訓練不擋搜尋:仍可被 AI 即時搜尋引用
- GPTBot / ClaudeBot / Google-Extended / PerplexityBot 為四大訓練爬蟲
相關內容
- [faq] 擋訓練還能被引用嗎? — 可以。擋 GPTBot 只阻止內容被納入訓練,但 ChatGPT Search 用 OAI-SearchBot 即時抓取仍可引用。ClaudeBot vs Cl
- [faq] 怎麼確認 AI 抓取? — 檢查 AI 是否抓取你的網站有三條路:看 server access log 過濾 AI bot user-agent、用 Cloudflare Bot Ana
- [glossary] AI 爬蟲列表 — AI 爬蟲是 OpenAI、Anthropic、Perplexity 等公司部署、抓取網頁內容供 LLM 訓練與即時搜尋使用的自動化機器人。
- [glossary] 詳見原頁 — ClaudeBot 是 Anthropic Claude 的訓練資料爬蟲;對企業 RAG 與長期 LLMO 重要。
- [blog] 閱讀完整指南:GEO 方法論三層架構 — GEO 具體怎麼做?本文以 Answer-First 寫作、E-E-A-T 信號建立、Schema.org 結構化資料三層方法論,逐項說明實作步驟、字數規範、技