Los 32 crawlers con IA que todo dueño de sitio debe conocer

LLCrawler ·

Tu robots.txt dejó de ser un documento solo-para-Google hace años. Hoy más de 30 crawlers con nombre propio jalan la web para entrenamiento, grounding o respuestas en vivo. Bloquea el equivocado y desapareces del motor que te habría citado. Permítelos a todos y tienes distribución gratis.

Esta es la lista completa que LLCrawler rastrea, agrupada por empresa matriz.

OpenAI

User-Agent Propósito
GPTBot Datos de entrenamiento para modelos GPT
ChatGPT-User Navegación en vivo desde ChatGPT
OAI-SearchBot Índice de ChatGPT Search

Anthropic

User-Agent Propósito
ClaudeBot Entrenamiento y Claude Search
Claude-Web Fetcher legacy de Claude
anthropic-ai Identificador legacy, sigue vigente

Google

User-Agent Propósito
Googlebot Índice web principal (alimenta AI Overviews)
Google-Extended Opt-out de entrenamiento Gemini / Vertex AI
Googlebot-News Índice de noticias
Googlebot-Image Índice de imágenes

Perplexity

User-Agent Propósito
PerplexityBot Índice usado para respuestas
Perplexity-User Fetch en vivo cuando el usuario sigue una cita

Apple

User-Agent Propósito
Applebot Siri y búsqueda de Apple
Applebot-Extended Opt-out de entrenamiento Apple Intelligence

Meta, ByteDance, Amazon, y otros

User-Agent Empresa
FacebookBot Entrenamiento de Meta
Meta-ExternalAgent Fetch en vivo de Meta AI
Meta-ExternalFetcher Previews de links de Meta AI
Bytespider ByteDance / Doubao
Amazonbot Alexa y Amazon AI
cohere-ai Grounding de modelos Cohere
cohere-training-data-crawler Entrenamiento Cohere
CCBot Common Crawl (alimenta docenas de modelos)
DuckAssistBot DuckDuckGo AI assist
MistralAI-User Mistral Le Chat
PanguBot Huawei Pangu

Fuentes secundarias de datos IA

User-Agent Propósito
Diffbot Knowledge graph que alimenta varios productos IA
ImagesiftBot Entrenamiento de IA de imágenes
Omgilibot Agregador de foros públicos
PiplBot Índice de datos de personas
Timpibot Startup de AI search
YouBot Búsqueda de You.com
Bingbot Alimenta Microsoft Copilot

Son 32 crawlers distintos contra los que LLCrawler valida tu robots.txt.

Las tres políticas que realmente tienen sentido

1. Permitir todo (la mayoría de los sitios): quieres citas con IA, no opt-outs de entrenamiento. Es una línea.

User-agent: *
Allow: /

2. Bloquear entrenamiento, permitir respuestas: común en medios y publishers premium. Permite los user-agents *-User y *-SearchBot; bloquea los de solo entrenamiento como GPTBot, CCBot, cohere-training-data-crawler.

3. Bloquear todo: solo si tienes una razón de negocio clara. Te estás saliendo por completo de las superficies de respuesta con IA.

Cómo saber qué estás bloqueando hoy

Pega tu URL en LLCrawler. La sección de AI Crawler Access muestra cuántos de los 32 bots rastreados pueden alcanzar tu sitio, y lista los que estás bloqueando. Si ves "32 / 32", estás bien parado en todos los motores principales — combínalo con un llms.txt válido y los fundamentos de JSON-LD y tienes la base para visibilidad con IA.

Fuentes

¿Tu sitio es visible para la IA?

Corre un análisis gratis en 30 segundos y descubre qué arreglar.

Analizar mi sitio