Los 32 crawlers con IA que todo dueño de sitio debe conocer
Tu robots.txt dejó de ser un documento solo-para-Google hace años. Hoy más de 30 crawlers con nombre propio jalan la web para entrenamiento, grounding o respuestas en vivo. Bloquea el equivocado y desapareces del motor que te habría citado. Permítelos a todos y tienes distribución gratis.
Esta es la lista completa que LLCrawler rastrea, agrupada por empresa matriz.
OpenAI
| User-Agent | Propósito |
|---|---|
GPTBot |
Datos de entrenamiento para modelos GPT |
ChatGPT-User |
Navegación en vivo desde ChatGPT |
OAI-SearchBot |
Índice de ChatGPT Search |
Anthropic
| User-Agent | Propósito |
|---|---|
ClaudeBot |
Entrenamiento y Claude Search |
Claude-Web |
Fetcher legacy de Claude |
anthropic-ai |
Identificador legacy, sigue vigente |
| User-Agent | Propósito |
|---|---|
Googlebot |
Índice web principal (alimenta AI Overviews) |
Google-Extended |
Opt-out de entrenamiento Gemini / Vertex AI |
Googlebot-News |
Índice de noticias |
Googlebot-Image |
Índice de imágenes |
Perplexity
| User-Agent | Propósito |
|---|---|
PerplexityBot |
Índice usado para respuestas |
Perplexity-User |
Fetch en vivo cuando el usuario sigue una cita |
Apple
| User-Agent | Propósito |
|---|---|
Applebot |
Siri y búsqueda de Apple |
Applebot-Extended |
Opt-out de entrenamiento Apple Intelligence |
Meta, ByteDance, Amazon, y otros
| User-Agent | Empresa |
|---|---|
FacebookBot |
Entrenamiento de Meta |
Meta-ExternalAgent |
Fetch en vivo de Meta AI |
Meta-ExternalFetcher |
Previews de links de Meta AI |
Bytespider |
ByteDance / Doubao |
Amazonbot |
Alexa y Amazon AI |
cohere-ai |
Grounding de modelos Cohere |
cohere-training-data-crawler |
Entrenamiento Cohere |
CCBot |
Common Crawl (alimenta docenas de modelos) |
DuckAssistBot |
DuckDuckGo AI assist |
MistralAI-User |
Mistral Le Chat |
PanguBot |
Huawei Pangu |
Fuentes secundarias de datos IA
| User-Agent | Propósito |
|---|---|
Diffbot |
Knowledge graph que alimenta varios productos IA |
ImagesiftBot |
Entrenamiento de IA de imágenes |
Omgilibot |
Agregador de foros públicos |
PiplBot |
Índice de datos de personas |
Timpibot |
Startup de AI search |
YouBot |
Búsqueda de You.com |
Bingbot |
Alimenta Microsoft Copilot |
Son 32 crawlers distintos contra los que LLCrawler valida tu robots.txt.
Las tres políticas que realmente tienen sentido
1. Permitir todo (la mayoría de los sitios): quieres citas con IA, no opt-outs de entrenamiento. Es una línea.
User-agent: *
Allow: /
2. Bloquear entrenamiento, permitir respuestas: común en medios y publishers premium. Permite los user-agents *-User y *-SearchBot; bloquea los de solo entrenamiento como GPTBot, CCBot, cohere-training-data-crawler.
3. Bloquear todo: solo si tienes una razón de negocio clara. Te estás saliendo por completo de las superficies de respuesta con IA.
Cómo saber qué estás bloqueando hoy
Pega tu URL en LLCrawler. La sección de AI Crawler Access muestra cuántos de los 32 bots rastreados pueden alcanzar tu sitio, y lista los que estás bloqueando. Si ves "32 / 32", estás bien parado en todos los motores principales — combínalo con un llms.txt válido y los fundamentos de JSON-LD y tienes la base para visibilidad con IA.
Fuentes
- platform.openai.com/docs/gptbot — docs oficiales de GPTBot / ChatGPT-User / OAI-SearchBot
- support.anthropic.com — política del crawler de Anthropic
- robotstxt.org — la especificación base
- commoncrawl.org — contexto de CCBot, el crawler más rastreado del mundo