⬧ GEO — Technique

Robots.txt et Crawlers IA : GPTBot, PerplexityBot, ClaudeBot — Ce Qu'il Faut Autoriser

Votre robots.txt bloque peut-être GPTBot ou PerplexityBot sans que vous le sachiez. Guide complet pour autoriser les crawlers IA et ne pas vous couper involontairement de ChatGPT et Perplexity.

CA
Corentin Aubert
21 mars 2026 7 min de lecture ↑ Mars 2026

Le problème invisible : un robots.txt qui coupe les LLMs

Depuis 2023, tous les grands LLMs ont déployé leurs propres bots d'indexation. GPTBot (OpenAI), PerplexityBot, ClaudeBot (Anthropic), Google-Extended (Gemini) — ces crawlers parcourent le web pour alimenter les réponses de leurs modèles. Problème : la majorité des robots.txt d'entreprise ont été écrits avant leur existence et les bloquent involontairement.

🚨
Cas fréquent : Un client arrive avec un score GEO de 12/100 malgré un excellent contenu. Cause identifiée en 2 minutes : User-agent: * / Disallow: / dans le robots.txt. Tous les bots, y compris les IA, étaient bloqués. Score après correction et réindexation : 58/100.

Liste complète des user agents IA à connaître

BotPlateformeUser-AgentStatut recommandé
GPTBotChatGPT / OpenAIGPTBotAutoriser
ChatGPT-UserChatGPT SearchChatGPT-UserAutoriser
PerplexityBotPerplexityPerplexityBotAutoriser
ClaudeBotClaude (Anthropic)ClaudeBotAutoriser
Google-ExtendedGemini / AI OverviewsGoogle-ExtendedAutoriser
GooglebotGoogle SearchGooglebotDéjà autorisé normalement
CCBotCommon CrawlCCBotOptionnel
anthropic-aiAnthropic traininganthropic-aiÀ votre discrétion

Configuration robots.txt optimale pour le GEO

Voici le robots.txt recommandé pour une entreprise qui veut maximiser sa visibilité IA :

# Robots.txt — Configuration GEO-friendly
# Dernière mise à jour : mars 2026

# Moteurs de recherche classiques
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Crawlers IA — ChatGPT / OpenAI
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

# Crawlers IA — Perplexity
User-agent: PerplexityBot
Allow: /

# Crawlers IA — Claude / Anthropic
User-agent: ClaudeBot
Allow: /

# Crawlers IA — Gemini / Google AI
User-agent: Google-Extended
Allow: /

# Règle générale (bots non listés)
User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /private/
Disallow: /*.pdf$

# Sitemap
Sitemap: https://votresite.fr/sitemap.xml
⚠️
Attention Cloudflare : Cloudflare a modifié ses paramètres par défaut en 2024 pour bloquer les bots IA. Si vous utilisez Cloudflare, vérifiez dans Security → Bots que "AI Scrapers and Crawlers" est bien sur "Allow" ou "Log" (pas "Block").

Comment vérifier votre robots.txt actuel

01
Accéder à votre robots.txt
Tapez directement votresite.fr/robots.txt dans votre navigateur. Le fichier doit s'afficher en texte brut.
02
Vérifier les règles de blocage
Cherchez Disallow: / associé à User-agent: * ou User-agent: GPTBot. Ce pattern bloque tout. Cherchez aussi GPTBot, PerplexityBot, ClaudeBot, Google-Extended pour des règles dédiées.
03
Tester avec le robots.txt Tester de Google
Google Search Console → Inspection d'URL → robots.txt Tester. Saisissez "GPTBot" comme user agent et vérifiez qu'il a accès à vos pages clés.
04
Vérifier les logs serveur
Si vous avez accès aux logs Apache/Nginx, cherchez les user agents IA. Si GPTBot apparaît avec des réponses 403, il est bloqué côté serveur (pas seulement robots.txt).

Impact sur le score GEO

Impact de la configuration robots.txt sur le score GEO
Tous bots IA bloqués0 à 15/100 — Invisible
Bots partiellement bloqués15 à 35/100 — Très limité
Tous bots IA autorisésBase pour score > 40/100
Délai après déblocage2 à 8 semaines pour reindexation

Le robots.txt est le prérequis absolu. Un site avec un excellent FAQ schema mais des bots IA bloqués restera invisible. Vérifiez-le en premier.

CA
Corentin Aubert
Fondateur de Corerank. Spécialiste SEO & GEO (Generative Engine Optimization). Ancien Chef de Projet Marketing chez Nexity. Audité 40+ entreprises françaises sur ChatGPT, Perplexity, Gemini et Claude.

Questions fréquentes

Faut-il autoriser tous les crawlers IA ou seulement certains ?

Tout dépend de votre stratégie. Pour une visibilité maximale, autorisez GPTBot (ChatGPT), PerplexityBot, ClaudeBot et Google-Extended. CCBot (Common Crawl) et anthropic-ai (données d'entraînement Anthropic) sont optionnels selon votre politique de données. En 2026, bloquer les crawlers de ChatGPT ou Perplexity revient à se couper volontairement de canaux de distribution en forte croissance.

Mon site WordPress bloque-t-il les bots IA par défaut ?

WordPress lui-même ne bloque pas les bots IA. En revanche, certains plugins de sécurité (Wordfence, iThemes Security) ou de cache (WP Rocket en mode avancé) peuvent bloquer tous les bots non-Googlebot. Vérifiez vos plugins de sécurité et votre fichier robots.txt dans les paramètres de lecture WordPress.

Cloudflare bloque-t-il automatiquement les crawlers IA ?

Oui. En 2024, Cloudflare a modifié ses paramètres par défaut pour inclure les 'AI Scrapers and Crawlers' dans sa catégorie de bots à bloquer. Si vous utilisez Cloudflare, vérifiez dans Security → Bots → Bot Fight Mode et assurez-vous que les bots IA ne sont pas bloqués. Cette configuration silencieuse est responsable de nombreux scores GEO inexplicablement bas.

Bloquer les crawlers IA protège-t-il mon contenu ?

Partiellement. Bloquer GPTBot empêche OpenAI d'utiliser votre contenu pour l'entraînement de futurs modèles, mais cela ne vous protège pas de l'utilisation des données déjà indexées avant le blocage. De plus, bloquer les crawlers ne vous protège pas si votre contenu est cité par d'autres sources que les LLMs utilisent. C'est un compromis : protection partielle contre visibilité IA réduite.

Votre score GEO vous intéresse ?

Audit complet de votre visibilité sur ChatGPT, Perplexity, Gemini et Claude. Score sur 100, concurrents identifiés, plan d'action. Rapport PDF sous 24h.

Audit GEO gratuit →