我的網站被 AI 抓取了嗎?怎麼知道?
檢查 AI 是否抓取你的網站有三條路:看 server access log 過濾 AI bot user-agent、用 Cloudflare Bot Analytics、或直接到 ChatGPT/Perplexity 實測引用。
最直接的證據在 server access log。透過 Nginx/Apache log 過濾 user-agent 字串,可看到每支 AI 爬蟲的訪問頻率與抓取頁面。常見 user-agent:`GPTBot`(OpenAI 訓練)、`OAI-SearchBot`(ChatGPT 搜尋)、`ClaudeBot`(Anthropic)、`PerplexityBot`(Perplexity 訓練)、`Perplexity-User`(Perplexity 即時搜尋)、`Google-Extended`(Gemini 訓練)。
若用 Cloudflare,可在 Dashboard → Analytics → Bot Analytics 直接看各 AI 爬蟲訪問次數曲線,無需額外設定。WordPress 站可用 Wordfence、Cloudways 等外掛報表。
間接驗證:用 ChatGPT 問「給我 site:你的網域 的內容摘要」、Perplexity 問「請引用 你的網域 的相關資訊」。若 AI 能回傳具體內容=已被抓取且納入索引;若 AI 回「找不到」=可能 robots.txt 擋住、可能 SPA 渲染失敗、可能內容權重太低。
重點
- Server log 過濾 user-agent 是最直接的證據
- Cloudflare Bot Analytics 提供視覺化呈現
- ChatGPT/Perplexity 實測 site: 查詢可間接驗證
相關內容
- [glossary] AI 爬蟲術語頁 — AI 爬蟲是 OpenAI、Anthropic、Perplexity 等公司部署、抓取網頁內容供 LLM 訓練與即時搜尋使用的自動化機器人。
- [faq] 怎麼阻擋 AI 訓練? — 阻擋 AI 訓練只需在 robots.txt 對 GPTBot、ClaudeBot、Google-Extended、PerplexityBot 加 Disall
- [faq] 擋了還能被引用嗎? — 可以。擋 GPTBot 只阻止內容被納入訓練,但 ChatGPT Search 用 OAI-SearchBot 即時抓取仍可引用。ClaudeBot vs Cl
- [faq] 詳見原頁 — 三步驟:①列 20 題品牌相關問題;②每週在 ChatGPT、Perplexity、AI Overview、Gemini 提問並截圖;③記錄「是否被引用 / 是
- [glossary] 詳見原頁 — ClaudeBot 是 Anthropic Claude 的訓練資料爬蟲;對企業 RAG 與長期 LLMO 重要。
- [blog] 閱讀完整指南:GEO 方法論三層架構 — GEO 具體怎麼做?本文以 Answer-First 寫作、E-E-A-T 信號建立、Schema.org 結構化資料三層方法論,逐項說明實作步驟、字數規範、技