Robots.txt et Crawlers IA : GPTBot, PerplexityBot, ClaudeBot — Ce Qu'il Faut Autoriser
Votre robots.txt bloque peut-être GPTBot ou PerplexityBot sans que vous le sachiez. Guide complet pour autoriser les crawlers IA et ne pas vous couper involontairement de ChatGPT et Perplexity.
Le problème invisible : un robots.txt qui coupe les LLMs
Depuis 2023, tous les grands LLMs ont déployé leurs propres bots d'indexation. GPTBot (OpenAI), PerplexityBot, ClaudeBot (Anthropic), Google-Extended (Gemini) — ces crawlers parcourent le web pour alimenter les réponses de leurs modèles. Problème : la majorité des robots.txt d'entreprise ont été écrits avant leur existence et les bloquent involontairement.
User-agent: * / Disallow: / dans le robots.txt. Tous les bots, y compris les IA, étaient bloqués. Score après correction et réindexation : 58/100.Liste complète des user agents IA à connaître
| Bot | Plateforme | User-Agent | Statut recommandé |
|---|---|---|---|
| GPTBot | ChatGPT / OpenAI | GPTBot | Autoriser |
| ChatGPT-User | ChatGPT Search | ChatGPT-User | Autoriser |
| PerplexityBot | Perplexity | PerplexityBot | Autoriser |
| ClaudeBot | Claude (Anthropic) | ClaudeBot | Autoriser |
| Google-Extended | Gemini / AI Overviews | Google-Extended | Autoriser |
| Googlebot | Google Search | Googlebot | Déjà autorisé normalement |
| CCBot | Common Crawl | CCBot | Optionnel |
| anthropic-ai | Anthropic training | anthropic-ai | À votre discrétion |
Configuration robots.txt optimale pour le GEO
Voici le robots.txt recommandé pour une entreprise qui veut maximiser sa visibilité IA :
# Robots.txt — Configuration GEO-friendly
# Dernière mise à jour : mars 2026
# Moteurs de recherche classiques
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Crawlers IA — ChatGPT / OpenAI
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
# Crawlers IA — Perplexity
User-agent: PerplexityBot
Allow: /
# Crawlers IA — Claude / Anthropic
User-agent: ClaudeBot
Allow: /
# Crawlers IA — Gemini / Google AI
User-agent: Google-Extended
Allow: /
# Règle générale (bots non listés)
User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /private/
Disallow: /*.pdf$
# Sitemap
Sitemap: https://votresite.fr/sitemap.xml
Comment vérifier votre robots.txt actuel
votresite.fr/robots.txt dans votre navigateur. Le fichier doit s'afficher en texte brut.Disallow: / associé à User-agent: * ou User-agent: GPTBot. Ce pattern bloque tout. Cherchez aussi GPTBot, PerplexityBot, ClaudeBot, Google-Extended pour des règles dédiées.Impact sur le score GEO
Le robots.txt est le prérequis absolu. Un site avec un excellent FAQ schema mais des bots IA bloqués restera invisible. Vérifiez-le en premier.
Questions fréquentes
Faut-il autoriser tous les crawlers IA ou seulement certains ?
Tout dépend de votre stratégie. Pour une visibilité maximale, autorisez GPTBot (ChatGPT), PerplexityBot, ClaudeBot et Google-Extended. CCBot (Common Crawl) et anthropic-ai (données d'entraînement Anthropic) sont optionnels selon votre politique de données. En 2026, bloquer les crawlers de ChatGPT ou Perplexity revient à se couper volontairement de canaux de distribution en forte croissance.
Mon site WordPress bloque-t-il les bots IA par défaut ?
WordPress lui-même ne bloque pas les bots IA. En revanche, certains plugins de sécurité (Wordfence, iThemes Security) ou de cache (WP Rocket en mode avancé) peuvent bloquer tous les bots non-Googlebot. Vérifiez vos plugins de sécurité et votre fichier robots.txt dans les paramètres de lecture WordPress.
Cloudflare bloque-t-il automatiquement les crawlers IA ?
Oui. En 2024, Cloudflare a modifié ses paramètres par défaut pour inclure les 'AI Scrapers and Crawlers' dans sa catégorie de bots à bloquer. Si vous utilisez Cloudflare, vérifiez dans Security → Bots → Bot Fight Mode et assurez-vous que les bots IA ne sont pas bloqués. Cette configuration silencieuse est responsable de nombreux scores GEO inexplicablement bas.
Bloquer les crawlers IA protège-t-il mon contenu ?
Partiellement. Bloquer GPTBot empêche OpenAI d'utiliser votre contenu pour l'entraînement de futurs modèles, mais cela ne vous protège pas de l'utilisation des données déjà indexées avant le blocage. De plus, bloquer les crawlers ne vous protège pas si votre contenu est cité par d'autres sources que les LLMs utilisent. C'est un compromis : protection partielle contre visibilité IA réduite.
Votre score GEO vous intéresse ?
Audit complet de votre visibilité sur ChatGPT, Perplexity, Gemini et Claude. Score sur 100, concurrents identifiés, plan d'action. Rapport PDF sous 24h.
Audit GEO gratuit →