Los 32 crawlers con IA que todo dueño de sitio debe conocer

Tu robots.txt dejó de ser un documento solo-para-Google hace años. Hoy más de 30 crawlers con nombre propio jalan la web para entrenamiento, grounding o respuestas en vivo. Bloquea el equivocado y desapareces del motor que te habría citado. Permítelos a todos y tienes distribución gratis.

Esta es la lista completa que LLCrawler rastrea, agrupada por empresa matriz.

OpenAI

User-Agent	Propósito
`GPTBot`	Datos de entrenamiento para modelos GPT
`ChatGPT-User`	Navegación en vivo desde ChatGPT
`OAI-SearchBot`	Índice de ChatGPT Search

Anthropic

User-Agent	Propósito
`ClaudeBot`	Entrenamiento y Claude Search
`Claude-Web`	Fetcher legacy de Claude
`anthropic-ai`	Identificador legacy, sigue vigente

Google

User-Agent	Propósito
`Googlebot`	Índice web principal (alimenta AI Overviews)
`Google-Extended`	Opt-out de entrenamiento Gemini / Vertex AI
`Googlebot-News`	Índice de noticias
`Googlebot-Image`	Índice de imágenes

Perplexity

User-Agent	Propósito
`PerplexityBot`	Índice usado para respuestas
`Perplexity-User`	Fetch en vivo cuando el usuario sigue una cita

Apple

User-Agent	Propósito
`Applebot`	Siri y búsqueda de Apple
`Applebot-Extended`	Opt-out de entrenamiento Apple Intelligence

Meta, ByteDance, Amazon, y otros

User-Agent	Empresa
`FacebookBot`	Entrenamiento de Meta
`Meta-ExternalAgent`	Fetch en vivo de Meta AI
`Meta-ExternalFetcher`	Previews de links de Meta AI
`Bytespider`	ByteDance / Doubao
`Amazonbot`	Alexa y Amazon AI
`cohere-ai`	Grounding de modelos Cohere
`cohere-training-data-crawler`	Entrenamiento Cohere
`CCBot`	Common Crawl (alimenta docenas de modelos)
`DuckAssistBot`	DuckDuckGo AI assist
`MistralAI-User`	Mistral Le Chat
`PanguBot`	Huawei Pangu

Fuentes secundarias de datos IA

User-Agent	Propósito
`Diffbot`	Knowledge graph que alimenta varios productos IA
`ImagesiftBot`	Entrenamiento de IA de imágenes
`Omgilibot`	Agregador de foros públicos
`PiplBot`	Índice de datos de personas
`Timpibot`	Startup de AI search
`YouBot`	Búsqueda de You.com
`Bingbot`	Alimenta Microsoft Copilot

Son 32 crawlers distintos contra los que LLCrawler valida tu robots.txt.

Las tres políticas que realmente tienen sentido

1. Permitir todo (la mayoría de los sitios): quieres citas con IA, no opt-outs de entrenamiento. Es una línea.

User-agent: *
Allow: /

2. Bloquear entrenamiento, permitir respuestas: común en medios y publishers premium. Permite los user-agents *-User y *-SearchBot; bloquea los de solo entrenamiento como GPTBot, CCBot, cohere-training-data-crawler.

3. Bloquear todo: solo si tienes una razón de negocio clara. Te estás saliendo por completo de las superficies de respuesta con IA.

Cómo saber qué estás bloqueando hoy

Pega tu URL en LLCrawler. La sección de AI Crawler Access muestra cuántos de los 32 bots rastreados pueden alcanzar tu sitio, y lista los que estás bloqueando. Si ves "32 / 32", estás bien parado en todos los motores principales — combínalo con un llms.txt válido y los fundamentos de JSON-LD y tienes la base para visibilidad con IA.

Fuentes

platform.openai.com/docs/gptbot — docs oficiales de GPTBot / ChatGPT-User / OAI-SearchBot
support.anthropic.com — política del crawler de Anthropic
robotstxt.org — la especificación base
commoncrawl.org — contexto de CCBot, el crawler más rastreado del mundo