AI 爬蟲(AI Crawlers)
AI 爬蟲是 OpenAI、Anthropic、Perplexity 等公司部署、抓取網頁內容供 LLM 訓練與即時搜尋使用的自動化機器人。
主要 AI 爬蟲包含 GPTBot(OpenAI 訓練)、ChatGPT-User(即時抓取)、OAI-SearchBot(ChatGPT Search)、ClaudeBot(Anthropic)、PerplexityBot、Google-Extended(Gemini 訓練)、Applebot-Extended。透過 robots.txt 控制存取,但 GEO 立場通常選擇全部 Allow 以最大化引用機會。
為何重要
- 封鎖 AI 爬蟲=放棄被 AI 引用的所有可能
- 不同爬蟲對應不同 AI 平台,需個別管理
- AI 爬蟲多半不執行 JS,SPA 應用需搭配 llms.txt 或預渲染
實作要點
- 在 robots.txt 明確 Allow 7–10 種主要 AI 爬蟲
- 於伺服器 log 監測各爬蟲抓取頻率
- 對 SPA 站點補上 llms.txt 與 fallback HTML 內容
相關內容
- [glossary] llms.txt — llms.txt 是放在網站根目錄、給大型語言模型閱讀的精簡網站地圖與品牌摘要檔案,類似 robots.txt 但內容導向。
- [glossary] 生成式搜尋引擎優化 — 生成式搜尋引擎優化(GEO)是針對 ChatGPT、Google AI Overview、Gemini、Perplexity 等生成式 AI 搜尋引擎,讓品牌內
- [glossary] Schema.org 結構化資料 — Schema.org 是由 Google、Bing、Yahoo、Yandex 共同維護的結構化資料字彙,以 JSON-LD 形式宣告內容語意,是 GEO 必備技
- [blog] 2026 完整 GEO 指南:生成式搜尋引擎優化從定義、機制、執行到台灣品牌實戰 — 完整解析 2026 年生成式搜尋引擎優化(GEO):從定義、與 SEO 差異、AI 引用機制、七大內容類型、90 天落地路線、預算配比,到三個台灣品牌實戰案例。