AI 爬蟲（AI Crawlers）

AI 爬蟲是 OpenAI、Anthropic、Perplexity 等公司部署、抓取網頁內容供 LLM 訓練與即時搜尋使用的自動化機器人。

主要 AI 爬蟲包含 GPTBot（OpenAI 訓練）、ChatGPT-User（即時抓取）、OAI-SearchBot（ChatGPT Search）、ClaudeBot（Anthropic）、PerplexityBot、Google-Extended（Gemini 訓練）、Applebot-Extended。透過 robots.txt 控制存取，但 GEO 立場通常選擇全部 Allow 以最大化引用機會。

為何重要

封鎖 AI 爬蟲＝放棄被 AI 引用的所有可能
不同爬蟲對應不同 AI 平台，需個別管理
AI 爬蟲多半不執行 JS，SPA 應用需搭配 llms.txt 或預渲染

實作要點

在 robots.txt 明確 Allow 7–10 種主要 AI 爬蟲
於伺服器 log 監測各爬蟲抓取頻率
對 SPA 站點補上 llms.txt 與 fallback HTML 內容

相關內容

[glossary] llms.txt — llms.txt 是放在網站根目錄、給大型語言模型閱讀的精簡網站地圖與品牌摘要檔案，類似 robots.txt 但內容導向。
[glossary] 生成式搜尋引擎優化 — 生成式搜尋引擎優化（GEO）是針對 ChatGPT、Google AI Overview、Gemini、Perplexity 等生成式 AI 搜尋引擎，讓品牌內
[glossary] Schema.org 結構化資料 — Schema.org 是由 Google、Bing、Yahoo、Yandex 共同維護的結構化資料字彙，以 JSON-LD 形式宣告內容語意，是 GEO 必備技
[blog] 2026 完整 GEO 指南：生成式搜尋引擎優化從定義、機制、執行到台灣品牌實戰 — 完整解析 2026 年生成式搜尋引擎優化（GEO）：從定義、與 SEO 差異、AI 引用機制、七大內容類型、90 天落地路線、預算配比，到三個台灣品牌實戰案例。