Boîte ouverte

Comment on mesure vraiment
la visibilité IA d'un site

45 signaux. 4 LLMs. Une formule calibrée sur des audits terrain réels. Voici exactement comment fonctionne notre Score GEO — sans rien cacher sur les limites.

Corentin Aubert · Corerank · 23 mars 2026 · ✓ Données terrain

01 — Principe

Pourquoi ces 45 signaux

La logique derrière le choix

Les LLMs (ChatGPT, Perplexity, Gemini, Claude) citent une marque quand trois conditions sont réunies : ils peuvent crawler son site, ils peuvent comprendre qui elle est, et ils ont confiance dans la fraîcheur de l'information.

Nos 45 signaux couvrent exactement ces trois dimensions, regroupées en 4 catégories :

Total : 192 points bruts. La formule convertit ce score brut en Score GEO sur 100 (voir section 03). Les données structurées représentent 31% du total — c'est intentionnel : ce sont les signaux les plus directement actionnables et les plus impactants sur les LLMs.

02 — Signaux

Les 45 signaux expliqués

Chaque signal, son poids, et pourquoi il compte

45 SIGNAUX Crawleurs IA 23% Données struct. 31% Qualité contenu 21% SEO Technique 25%
Crawleurs IA23%
Données structurées31%
Qualité contenu21%
SEO Technique25%

🤖 Crawleurs IA 44 pts — 8 signaux

GPTBot autorisé
8 pts

ChatGPT ne peut pas indexer votre contenu si GPTBot est bloqué dans robots.txt. Impact direct sur ses mises à jour de base de connaissance. Pondération ×2 pour le score ChatGPT.

Documentation OpenAI crawling

PerplexityBot autorisé
8 pts

Perplexity recherche activement le web en temps réel. Le bloquer = absent de ses citations quelle que soit la qualité de votre contenu. Pondération ×2 pour le score Perplexity.

Comportement crawl Perplexity observé

ClaudeBot autorisé
6 pts

Anthropic crawle avec deux bots : ClaudeBot et anthropic-ai. Les deux doivent être autorisés pour être indexé dans les futures mises à jour de Claude.

Anthropic crawling docs

Google-Extended autorisé
6 pts

Distinct de Googlebot — alimente spécifiquement Gemini et les AI Overviews Google. Nécessite une autorisation explicite. Pondération ×2 pour le score Gemini.

Google Search Central

llms.txt présent
6 pts

Guide texte à la racine du site qui oriente les LLMs sur le contenu prioritaire. Lu activement par Perplexity et Claude depuis fin 2024. Présent sur moins de 5% des sites français.

Anthropic · Jeremy Howard (fastai)

CommonCrawl (CCBot)
5 pts

CCBot alimente les datasets d'entraînement de GPT-4, LLaMA, Gemini et Mistral. Le bloquer = absent des futurs LLMs lors de leurs ré-entraînements. Signal souvent négligé mais structurant long terme. Pondération ×2 pour ChatGPT.

Common Crawl Foundation

Applebot (Apple Intelligence)
3 pts

Applebot crawle pour Apple Intelligence et Siri, en forte croissance sur iOS/macOS depuis 2024. Autorisé par défaut si absent de robots.txt, mais le bloquer explicitement exclut du réseau Apple IA.

Apple Search documentation

Meta-ExternalAgent (Meta AI)
2 pts

Crawler de Meta AI et LLaMA. Meta AI dépasse 500M d'utilisateurs actifs — être indexé dans ses datasets représente un levier de visibilité croissant.

Meta AI documentation

📋 Données structurées 60 pts — 10 signaux

FAQ Schema JSON-LD
18 pts

Le signal le plus impactant du scoring. Permet aux LLMs d'extraire directement vos questions-réponses sous forme structurée. ChatGPT cite 3× plus les sites avec FAQ schema (Princeton GEO Study 2023). Signal #1 tous LLMs.

Princeton GEO Study 2023

Organization + Wikidata
12 pts

Votre carte d'identité LLM. Un schema Organization avec sameAs pointant votre entité Wikidata permet à ChatGPT de vous reconnaître comme entité connue et non comme un site web anonyme. Pondération ×2 ChatGPT.

Knowledge graph OpenAI

Wikidata ID
4 pts

Référence directe à votre Q-number Wikidata dans le HTML ou le schema. Renforce l'identification de l'entité. Pondération ×2 ChatGPT, ×1.6 Claude et Perplexity.

OpenAI knowledge graph

HowTo Schema
5 pts

Particulièrement efficace pour les requêtes "comment faire". ChatGPT et Gemini utilisent activement les HowTo schema pour structurer leurs réponses. Pondération ×1.8 Gemini, ×1.8 ChatGPT.

Schema.org HowTo spec

Speakable Schema
4 pts

Indique aux IA vocales et à Claude quels passages de votre contenu sont prioritaires. Valorisé par Claude (pondération ×2) et Gemini. Présent sur moins de 2% des sites français.

Anthropic docs

BreadcrumbList
3 pts

Communique la structure de navigation aux LLMs. Aide à comprendre la hiérarchie du contenu et le contexte de chaque page lors du crawl.

Schema.org

Avis / AggregateRating
4 pts

Schema AggregateRating ou Review. Signal de crédibilité fort — les LLMs citent davantage les marques avec des avis vérifiés (E-E-A-T). Pondération ×1.6 ChatGPT et Gemini, ×1.4 Perplexity et Claude.

Schema.org · E-E-A-T · Google

Auteur identifié (Person)
3 pts

Schema Person ou balisage auteur identifié. Signal E-E-A-T valorisé par Claude (×1.8) et Gemini. Indique aux LLMs qu'un humain expert est derrière le contenu — facteur de confiance clé depuis 2024.

Google E-E-A-T · Anthropic

sameAs — graphe de connaissance
3 pts

Propriété sameAs dans Organization reliant Wikipedia, Wikidata, LinkedIn. Ancre le site dans le graphe de connaissance des LLMs — réduit la confusion entre entités homonymes. Pondération ×1.8 ChatGPT.

Schema.org · OpenAI Knowledge Graph

FAQ ≥3 Q&R (qualité)
4 pts

FAQPage avec au moins 3 paires Question-Réponse bien formées. La quantité et la qualité comptent — un schema avec 1 seule Q&R apporte peu. Signal complémentaire au FAQ schema de base. Pondération ×2 ChatGPT.

Princeton GEO Study

🗂 Qualité contenu 40 pts — 11 signaux

Article + dates structurées
4 pts

Schema Article avec datePublished et dateModified. Perplexity pondère massivement la fraîcheur — un site sans dates structurées passe systématiquement après les sites datés.

Perplexity freshness algorithm

Contenu daté 2024-2026
3 pts

Présence de dates récentes dans le contenu HTML brut (pas nécessairement en schema). Signal de fraîcheur de base détecté lors du crawl proxy.

Perplexity freshness

Densité de contenu
2 pts

Ratio texte/HTML > 15%. Un site principalement composé de code avec peu de texte offre peu de substance aux LLMs. Proxy de qualité de contenu.

Content quality proxy LLMs

Contenu substantiel (≥300 mots)
3 pts

Page avec au moins 300 mots de texte visible réel. Proxy de profondeur pour les LLMs — une page trop courte est rarement citée comme source fiable. Pondération ×1.4 Perplexity.

Content quality research

Patterns Question-Réponse
4 pts

Questions suivies de réponses directes dans le texte visible. C'est le format que les LLMs extraient et citent en priorité pour les requêtes conversationnelles. Pondération ×1.8 ChatGPT, ×1.6 Perplexity.

Princeton GEO Study 2024

Titres interrogatifs (H2/H3)
4 pts

H2 ou H3 contenant des mots interrogatifs (comment, pourquoi, qu'est-ce que…). Capture les requêtes conversationnelles des utilisateurs de LLMs. Pondération ×1.8 Perplexity, ×1.6 ChatGPT.

GEO best practices 2024

Données & statistiques
3 pts

Chiffres concrets, pourcentages ou données vérifiables dans le contenu. Les LLMs préfèrent citer du contenu factuel et chiffré — signe de sérieux et de fiabilité. Pondération ×1.8 Perplexity.

Perplexity citation patterns

Réponses directes (En bref…)
3 pts

Blocs synthèse ("En bref", "L'essentiel", "À retenir") placés en début de section. Cités en priorité par Perplexity (×2) et ChatGPT lors des réponses aux requêtes informationnelles.

Perplexity + ChatGPT patterns

P0 — 1er paragraphe informatif
6 pts

Premier paragraphe visible de 80+ mots, direct et informatif, qui répond immédiatement au sujet de la page. Signal #1 de ce que les LLMs lisent en premier lors du crawl. Pondération ×2 Perplexity, ×1.8 ChatGPT.

GEO research 2024

Hiérarchie heading qualitative
4 pts

H2 descriptifs (≥3 mots) et H3 bien imbriqués sous les H2. Une structure heading riche aide les LLMs à naviguer le contenu et à extraire les bons passages pour chaque requête. Pondération ×1.6 ChatGPT.

GEO + SEO structure

Citations externes autorités
4 pts

Liens vers sources autorité (gouvernement, Wikipedia, études académiques, institutions). Signal E-E-A-T fort valorisé par Claude (×2) et Gemini. Prouve la rigueur factuelle du contenu.

E-E-A-T · Google Quality Rater Guidelines

⚙ SEO Technique 48 pts — 16 signaux

HTTPS
5 pts

Requis par tous les LLMs. Un site HTTP est traité comme non fiable. Pondération ×2 pour Gemini.

IETF RFC 2818

Open Graph complet
4 pts

og:title + og:description + og:image. Quand les LLMs prévisualisent votre contenu, un OG complet donne une identité visuelle et textuelle claire.

ogp.me spec

Vitesse proxy
4 pts

Temps de réponse lors du crawl proxy. Un site lent ou avec WAF bloquant ralentit ou empêche l'indexation par les bots IA. Note : ce n'est pas la vraie vitesse de chargement utilisateur.

Core Web Vitals

Title optimisé
2 pts

Balise <title> entre 30 et 65 caractères. Trop court = peu informatif. Trop long = tronqué lors de l'extraction par les LLMs.

SEO best practices

Meta description
2 pts

Entre 80 et 160 caractères. Utilisée par les LLMs pour comprendre rapidement le sujet d'une page sans la crawler intégralement.

SEO best practices

H1 unique
2 pts

Une seule balise H1 — le titre principal de la page. Signal de clarté structurelle pour les LLMs lors de l'extraction du sujet principal.

HTML5 spec

Hiérarchie H2-H3
2 pts

Présence de H2 et H3. Une structure heading claire aide les LLMs à segmenter le contenu par sujet et à extraire les bons passages pour chaque requête.

HTML structure

Lang HTML déclaré
1 pt

Attribut lang sur la balise <html>. Indique la langue aux LLMs pour prioriser les réponses en français sur les requêtes FR.

HTML5 spec

Sitemap XML
3 pts

sitemap.xml accessible à la racine. Aide les crawlers IA à découvrir et indexer l'ensemble du contenu — essentiel pour les grands sites avec des centaines de pages.

Sitemaps.org · Google

URL Canonical
3 pts

<link rel="canonical"> déclaré sur toutes les pages. Évite la dilution des signaux entre pages dupliquées — un signal de crédibilité pour les LLMs et les moteurs. Pondération ×1.4 Gemini.

Google Search Central

Viewport mobile
2 pts

<meta name="viewport"> correctement configuré. Indique l'optimisation mobile — requis pour l'indexation mobile-first de Google et Gemini. Pondération ×1.6 Gemini.

Google Mobile-First Indexing

Non-bloqué (noindex absent)
6 pts

Absence de meta robots noindex. Signal critique — un site noindex est complètement invisible pour les LLMs et les moteurs de recherche. Malus fort si présent. Pondération ×1.4 tous LLMs.

Google robots meta spec

Alt text images
3 pts

Images avec attribut alt descriptif. Aide les LLMs à comprendre le contenu visuel lors du crawl — signal d'accessibilité et de soin éditorial. Pondération ×1.4 Gemini.

Google Image SEO · WCAG

H1 qualitatif (≥25 caractères)
4 pts

H1 descriptif avec au moins 25 caractères — pas juste le nom de marque ou un mot générique. Un H1 riche aide les LLMs à identifier immédiatement le sujet de la page. Pondération ×1.4 ChatGPT et Gemini.

SEO / GEO best practices

Maillage interne (≥5 liens)
3 pts

Au moins 5 liens internes sur la page. Aide les crawlers IA à découvrir les pages clés du site et à comprendre l'architecture du contenu — proxy de richesse éditoriale.

SEO crawl budget

HTML sémantique
2 pts

Balises <article>, <main>, <header>, <section> utilisées. Structure que les LLMs parsent pour identifier le contenu principal et le distinguer de la navigation. Pondération ×1.2 Claude et Gemini.

HTML5 spec · ARIA

03 — Formule

Le calcul du Score GEO

Transparent, reproductible, calibré

Une fois les 45 signaux analysés, on calcule un score brut : points obtenus ÷ 192 × 100. Ce pourcentage brut est ensuite converti en Score GEO :

Formule Score GEO Corerank v2

Score GEO = min(96, round(raw% × 0.95))

Exemple 1 : 90 pts obtenus sur 192 → raw 47% → Score = min(96, round(47 × 0.95)) = 45

Exemple 2 : 130 pts obtenus sur 192 → raw 68% → Score = min(96, round(68 × 0.95)) = 65

Exemple 3 : 170 pts obtenus sur 192 → raw 89% → Score = min(96, round(89 × 0.95)) = 85

La formule est quasi-linéaire : un score de 50 veut vraiment dire que la moitié des signaux sont en place. Nous avons volontairement évité les courbes qui gonflent les scores moyens.

Pourquoi un plafond à 95 ? Même un site techniquement parfait sur les 45 signaux n'obtient pas 100. Les LLMs pondèrent aussi la notoriété de marque, le volume de contenu, les mentions externes — des dimensions qu'un outil proxy ne peut pas mesurer. Le plafond à 95 signale cette limite honnêtement.

80% des sites français scorent entre 35 et 60. Un score ≥ 70 place un site dans le top 5% des sites français en termes de préparation GEO — c'est l'objectif d'un accompagnement de 6 à 12 mois.

04 — LLMs

Pondérations par LLM

Chaque IA a ses propres priorités

Les 4 scores LLM sont calculés avec les mêmes 45 signaux mais des pondérations différentes. Elles reflètent les comportements documentés de chaque plateforme :

🟢 ChatGPT
×2.0GPTBot autorisé
×2.0FAQ Schema
×2.0Organization
×2.0Wikidata ID
×1.8HowTo Schema
🔵 Perplexity
×2.0PerplexityBot
×2.0Article + dates
×2.0Contenu daté
×1.6llms.txt
×1.6FAQ Schema
🟡 Claude
×2.0ClaudeBot
×2.0llms.txt
×2.0Speakable
×1.6Wikidata ID
×1.5FAQ Schema
💜 Gemini
×2.0Google-Extended
×2.0HTTPS
×1.8HowTo Schema
×1.4Open Graph
×1.4Title · Meta · H1

Ces pondérations sont basées sur la documentation publique de chaque plateforme, la Princeton GEO Study 2023, et nos observations sur 5+ audits manuels. Elles sont révisées trimestriellement.

05 — Terrain

Calibration sur données réelles

Comment on a validé la formule

La formule a été calibrée sur 5 audits GEO manuels complets réalisés en 2025-2026. Pour chaque site, on a comparé le score automatique (via proxy public) avec le score calculé lors de l'audit manuel complet (crawl direct + test LLMs réels sur 30 requêtes) :

Site Score proxy Score terrain Écart Cause de l'écart
corerank.fr — notre site 82 85 +3 pts Speakable partiel non détecté en proxy
jimmyfairly.com — mode/optique 64 71 +7 pts Schema Organization enrichi en JS
maisonsdumonde.com — retail/déco 58 67 +9 pts FAQ schema en JS (SPA partielle)
europcar.com — mobilité 43 58 +15 pts CDN Cloudflare bloque les proxies publics
credit-agricole.fr — banque 36 50 +14 pts WAF bancaire strict — HTML quasi-vide en proxy
hellowatt.fr — énergie 40 33 −7 pts Schema injecté via JS absent au proxy — mais aussi absent pour les crawlers IA

Écart moyen : ±8 pts. Les deux cas à fort écart (Europcar, Crédit Agricole) illustrent le problème des CDN stricts. Le cas Hellowatt est intéressant : le score proxy est supérieur au score terrain parce que le schema injecté en JS est visible par notre proxy mais pas par les vrais crawlers IA.

06 — Comparatif

Score automatique vs audit manuel

Deux outils complémentaires, pas interchangeables

Dimension Score GEO auto Audit GEO Corerank
Délai30 secondes24 heures
Signaux analysés45 signaux via proxy45+ via crawl direct
Tests LLMs réelsNon — estimés30 requêtes × 4 LLMs
Concurrents citésNonIdentifiés par requête
Sites SPA / JSPartiel (shell HTML)Complet (rendu navigateur)
Plan d'action3 quick wins génériquesPlan 6 mois priorisé
Rapport PDFNon8 à 12 pages
PrixGratuitGratuit

Le Score GEO automatique est conçu pour donner une direction rapidement : identifier les manques évidents, prioriser ce qui est actionnable. L'audit manuel va beaucoup plus loin — il teste ce que vos prospects voient réellement quand ils interrogent ChatGPT sur votre secteur.

07 — Limites

Ce que l'outil ne mesure pas

On ne cache rien

Sites avec CDN strict (grands groupes)

Cloudflare, Akamai ou WAF en mode strict bloquent les proxies publics. Résultat : seuls robots.txt, HTTPS et quelques headers sont mesurés. Le score est sous-estimé de 10 à 20 pts pour ces sites.

→ Pour les sites enterprise, l'audit manuel est indispensable pour avoir des données fiables.

Sites en SPA (React, Vue, Angular)

Les sites qui chargent leur contenu en JavaScript renvoient souvent un shell HTML quasi-vide au proxy. FAQ schema, Organization schema et texte injectés via JS ne sont pas détectés — et ne le sont pas non plus par les crawlers IA.

→ Si votre site est en SPA, le score proxy est probablement représentatif de ce que les LLMs voient vraiment. C'est précisément le problème à corriger.

Notoriété de marque et volume de contenu

Les LLMs pondèrent des facteurs qu'un proxy ne peut pas mesurer : le nombre de mentions web, la notoriété Wikidata, le volume de contenu publié, la cohérence historique de l'entité. Un site avec 0 FAQ schema mais 10 000 articles peut être très bien cité.

→ Le Score GEO technique est une condition nécessaire, pas suffisante.

Évolutions des algorithmes LLMs

Les pondérations et comportements des LLMs évoluent à chaque mise à jour majeure. Ce que ChatGPT priorise en mars 2026 peut évoluer. Nos pondérations sont basées sur les comportements documentés à la date de mise à jour affichée.

→ Mise à jour de la formule trimestriellement sur la base de nouvelles données terrain.

08 — Roadmap

Ce sur quoi on travaille

Évolutions prévues

En cours

Intégration SearchGPT (OpenAI) dans les scores LLMs — nouveau canal distinct de ChatGPT
Détection du llms-full.txt — variante enrichie avec contenu complet plutôt que liens
Score sémantique — pas juste du texte, du texte pertinent sur les requêtes cibles du site

Prévu

Benchmark mensuel automatisé — mise à jour automatique des scores de référence sur 8 secteurs
Historique de progression — suivre l'évolution de votre score de mois en mois
Détection des schemas JS — actuellement invisibles au proxy, probablement aussi aux crawlers IA
API Score GEO — intégration dans vos outils de monitoring existants

Suggestion d'évolution ? corentin@corerank.fr ou directement lors d'un appel de 30 min.

Testez votre site maintenant

Score GEO en 30 secondes, gratuit et sans inscription. Ou demandez l'audit complet avec test réel sur 4 LLMs et rapport PDF sous 24h.