Boîte ouverte

Comment on mesure vraiment
la visibilité IA d'un site

22 signaux. 4 LLMs. Une formule calibrée sur des audits terrain réels. Voici exactement comment fonctionne notre Score GEO — sans rien cacher sur les limites.

Corentin Aubert · Corerank · 23 mars 2026 · ✓ Données terrain

01 — Principe

Pourquoi ces 22 signaux

La logique derrière le choix

Les LLMs (ChatGPT, Perplexity, Gemini, Claude) citent une marque quand trois conditions sont réunies : ils peuvent crawler son site, ils peuvent comprendre qui elle est, et ils ont confiance dans la fraîcheur de l'information.

Nos 22 signaux couvrent exactement ces trois dimensions, regroupées en 4 catégories :

Total : 111 points bruts. La formule convertit ce score brut en Score GEO sur 100 (voir section 03). Les données structurées représentent 41% du total — c'est intentionnel : ce sont les signaux les plus directement actionnables et les plus impactants sur les LLMs.

02 — Signaux

Les 22 signaux expliqués

Chaque signal, son poids, et pourquoi il compte

🤖 Crawleurs IA 34 pts

GPTBot autorisé
8 pts

ChatGPT ne peut pas indexer votre contenu si GPTBot est bloqué dans robots.txt. Impact direct sur ses mises à jour de base de connaissance. Pondération ×2 pour le score ChatGPT.

Documentation OpenAI crawling

PerplexityBot autorisé
8 pts

Perplexity recherche activement le web en temps réel. Le bloquer = absent de ses citations quelle que soit la qualité de votre contenu. Pondération ×2 pour le score Perplexity.

Comportement crawl Perplexity observé

ClaudeBot autorisé
6 pts

Anthropic crawle avec deux bots : ClaudeBot et anthropic-ai. Les deux doivent être autorisés pour être indexé dans les futures mises à jour de Claude.

Anthropic crawling docs

Google-Extended autorisé
6 pts

Distinct de Googlebot — alimente spécifiquement Gemini et les AI Overviews Google. Nécessite une autorisation explicite. Pondération ×2 pour le score Gemini.

Google Search Central

llms.txt présent
6 pts

Guide texte à la racine du site qui oriente les LLMs sur le contenu prioritaire. Lu activement par Perplexity et Claude depuis fin 2024. Présent sur moins de 5% des sites français.

Anthropic · Jeremy Howard (fastai)

📋 Données structurées 46 pts

FAQ Schema JSON-LD
18 pts

Le signal le plus impactant du scoring. Permet aux LLMs d'extraire directement vos questions-réponses sous forme structurée. ChatGPT cite 3× plus les sites avec FAQ schema (Princeton GEO Study 2023). Signal #1 tous LLMs.

Princeton GEO Study 2023

Organization + Wikidata
12 pts

Votre carte d'identité LLM. Un schema Organization avec sameAs pointant votre entité Wikidata permet à ChatGPT de vous reconnaître comme entité connue et non comme un site web anonyme. Pondération ×2 ChatGPT.

Knowledge graph OpenAI

Wikidata ID
4 pts

Référence directe à votre Q-number Wikidata dans le HTML ou le schema. Renforce l'identification de l'entité. Pondération ×2 ChatGPT, ×1.6 Claude et Perplexity.

OpenAI knowledge graph

HowTo Schema
5 pts

Particulièrement efficace pour les requêtes "comment faire". ChatGPT et Gemini utilisent activement les HowTo schema pour structurer leurs réponses. Pondération ×1.8 Gemini, ×1.8 ChatGPT.

Schema.org HowTo spec

Speakable Schema
4 pts

Indique aux IA vocales et à Claude quels passages de votre contenu sont prioritaires. Valorisé par Claude (pondération ×2) et Gemini. Présent sur moins de 2% des sites français.

Anthropic docs

BreadcrumbList
3 pts

Communique la structure de navigation aux LLMs. Aide à comprendre la hiérarchie du contenu et le contexte de chaque page lors du crawl.

Schema.org

🗂 Contenu & Fraîcheur 9 pts

Article + dates structurées
4 pts

Schema Article avec datePublished et dateModified. Perplexity pondère massivement la fraîcheur — un site sans dates structurées passe systématiquement après les sites datés.

Perplexity freshness algorithm

Contenu daté 2024-2026
3 pts

Présence de dates récentes dans le contenu HTML brut (pas nécessairement en schema). Signal de fraîcheur de base détecté lors du crawl proxy.

Perplexity freshness

Densité de contenu
2 pts

Ratio texte/HTML > 15%. Un site principalement composé de code avec peu de texte offre peu de substance aux LLMs. Proxy de qualité de contenu.

Content quality proxy LLMs

⚙ SEO Technique 22 pts

HTTPS
5 pts

Requis par tous les LLMs. Un site HTTP est traité comme non fiable. Pondération ×2 pour Gemini.

IETF RFC 2818

Open Graph complet
4 pts

og:title + og:description + og:image. Quand les LLMs prévisualisent votre contenu, un OG complet donne une identité visuelle et textuelle claire.

ogp.me spec

Vitesse proxy
4 pts

Temps de réponse lors du crawl proxy. Un site lent ou avec WAF bloquant ralentit ou empêche l'indexation par les bots IA. Note : ce n'est pas la vraie vitesse de chargement utilisateur.

Core Web Vitals

Title optimisé
2 pts

Balise <title> entre 30 et 65 caractères. Trop court = peu informatif. Trop long = tronqué lors de l'extraction par les LLMs.

SEO best practices

Meta description
2 pts

Entre 80 et 160 caractères. Utilisée par les LLMs pour comprendre rapidement le sujet d'une page sans la crawler intégralement.

SEO best practices

H1 unique
2 pts

Une seule balise H1 — le titre principal de la page. Signal de clarté structurelle pour les LLMs lors de l'extraction du sujet principal.

HTML5 spec

Hiérarchie H2-H3
2 pts

Présence de H2 et H3. Une structure heading claire aide les LLMs à segmenter le contenu par sujet et à extraire les bons passages pour chaque requête.

HTML structure

Lang HTML déclaré
1 pt

Attribut lang sur la balise <html>. Indique la langue aux LLMs pour prioriser les réponses en français sur les requêtes FR.

HTML5 spec

03 — Formule

Le calcul du Score GEO

Transparent, reproductible, calibré

Une fois les 22 signaux analysés, on calcule un score brut : points obtenus ÷ 111 × 100. Ce pourcentage brut est ensuite converti en Score GEO :

Formule Score GEO Corerank v1

Score GEO = min(95, round(raw% × 0.92 + 3))

Exemple 1 : 50 pts obtenus sur 111 → raw 45% → Score = min(95, round(45 × 0.92 + 3)) = 44

Exemple 2 : 80 pts obtenus sur 111 → raw 72% → Score = min(95, round(72 × 0.92 + 3)) = 69

Exemple 3 : 100 pts obtenus sur 111 → raw 90% → Score = min(95, round(90 × 0.92 + 3)) = 86

La formule est quasi-linéaire : un score de 50 veut vraiment dire que la moitié des signaux sont en place. Nous avons volontairement évité les courbes qui gonflent les scores moyens.

Pourquoi un plafond à 95 ? Même un site techniquement parfait sur les 22 signaux n'obtient pas 100. Les LLMs pondèrent aussi la notoriété de marque, le volume de contenu, les mentions externes — des dimensions qu'un outil proxy ne peut pas mesurer. Le plafond à 95 signale cette limite honnêtement.

80% des sites français scorent entre 35 et 60. Un score ≥ 70 place un site dans le top 5% des sites français en termes de préparation GEO — c'est l'objectif d'un accompagnement de 6 à 12 mois.

04 — LLMs

Pondérations par LLM

Chaque IA a ses propres priorités

Les 4 scores LLM sont calculés avec les mêmes 22 signaux mais des pondérations différentes. Elles reflètent les comportements documentés de chaque plateforme :

🟢 ChatGPT
×2.0GPTBot autorisé
×2.0FAQ Schema
×2.0Organization
×2.0Wikidata ID
×1.8HowTo Schema
🔵 Perplexity
×2.0PerplexityBot
×2.0Article + dates
×2.0Contenu daté
×1.6llms.txt
×1.6FAQ Schema
🟡 Claude
×2.0ClaudeBot
×2.0llms.txt
×2.0Speakable
×1.6Wikidata ID
×1.5FAQ Schema
💜 Gemini
×2.0Google-Extended
×2.0HTTPS
×1.8HowTo Schema
×1.4Open Graph
×1.4Title · Meta · H1

Ces pondérations sont basées sur la documentation publique de chaque plateforme, la Princeton GEO Study 2023, et nos observations sur 5+ audits manuels. Elles sont révisées trimestriellement.

05 — Terrain

Calibration sur données réelles

Comment on a validé la formule

La formule a été calibrée sur 5 audits GEO manuels complets réalisés en 2025-2026. Pour chaque site, on a comparé le score automatique (via proxy public) avec le score calculé lors de l'audit manuel complet (crawl direct + test LLMs réels sur 30 requêtes) :

Site Score proxy Score terrain Écart Cause de l'écart
corerank.fr — notre site 82 85 +3 pts Speakable partiel non détecté en proxy
jimmyfairly.com — mode/optique 64 71 +7 pts Schema Organization enrichi en JS
maisonsdumonde.com — retail/déco 58 67 +9 pts FAQ schema en JS (SPA partielle)
europcar.com — mobilité 43 58 +15 pts CDN Cloudflare bloque les proxies publics
credit-agricole.fr — banque 36 50 +14 pts WAF bancaire strict — HTML quasi-vide en proxy
hellowatt.fr — énergie 40 33 −7 pts Schema injecté via JS absent au proxy — mais aussi absent pour les crawlers IA

Écart moyen : ±8 pts. Les deux cas à fort écart (Europcar, Crédit Agricole) illustrent le problème des CDN stricts. Le cas Hellowatt est intéressant : le score proxy est supérieur au score terrain parce que le schema injecté en JS est visible par notre proxy mais pas par les vrais crawlers IA.

06 — Comparatif

Score automatique vs audit manuel

Deux outils complémentaires, pas interchangeables

Dimension Score GEO auto Audit GEO Corerank
Délai30 secondes24 heures
Signaux analysés22 signaux via proxy22+ via crawl direct
Tests LLMs réelsNon — estimés30 requêtes × 4 LLMs
Concurrents citésNonIdentifiés par requête
Sites SPA / JSPartiel (shell HTML)Complet (rendu navigateur)
Plan d'action3 quick wins génériquesPlan 6 mois priorisé
Rapport PDFNon8 à 12 pages
PrixGratuitGratuit

Le Score GEO automatique est conçu pour donner une direction rapidement : identifier les manques évidents, prioriser ce qui est actionnable. L'audit manuel va beaucoup plus loin — il teste ce que vos prospects voient réellement quand ils interrogent ChatGPT sur votre secteur.

07 — Limites

Ce que l'outil ne mesure pas

On ne cache rien

Sites avec CDN strict (grands groupes)

Cloudflare, Akamai ou WAF en mode strict bloquent les proxies publics. Résultat : seuls robots.txt, HTTPS et quelques headers sont mesurés. Le score est sous-estimé de 10 à 20 pts pour ces sites.

→ Pour les sites enterprise, l'audit manuel est indispensable pour avoir des données fiables.

Sites en SPA (React, Vue, Angular)

Les sites qui chargent leur contenu en JavaScript renvoient souvent un shell HTML quasi-vide au proxy. FAQ schema, Organization schema et texte injectés via JS ne sont pas détectés — et ne le sont pas non plus par les crawlers IA.

→ Si votre site est en SPA, le score proxy est probablement représentatif de ce que les LLMs voient vraiment. C'est précisément le problème à corriger.

Notoriété de marque et volume de contenu

Les LLMs pondèrent des facteurs qu'un proxy ne peut pas mesurer : le nombre de mentions web, la notoriété Wikidata, le volume de contenu publié, la cohérence historique de l'entité. Un site avec 0 FAQ schema mais 10 000 articles peut être très bien cité.

→ Le Score GEO technique est une condition nécessaire, pas suffisante.

Évolutions des algorithmes LLMs

Les pondérations et comportements des LLMs évoluent à chaque mise à jour majeure. Ce que ChatGPT priorise en mars 2026 peut évoluer. Nos pondérations sont basées sur les comportements documentés à la date de mise à jour affichée.

→ Mise à jour de la formule trimestriellement sur la base de nouvelles données terrain.

08 — Roadmap

Ce sur quoi on travaille

Évolutions prévues

En cours

Intégration SearchGPT (OpenAI) dans les scores LLMs — nouveau canal distinct de ChatGPT
Détection du llms-full.txt — variante enrichie avec contenu complet plutôt que liens
Score sémantique — pas juste du texte, du texte pertinent sur les requêtes cibles du site

Prévu

Benchmark mensuel automatisé — mise à jour automatique des scores de référence sur 8 secteurs
Historique de progression — suivre l'évolution de votre score de mois en mois
Détection des schemas JS — actuellement invisibles au proxy, probablement aussi aux crawlers IA
API Score GEO — intégration dans vos outils de monitoring existants

Suggestion d'évolution ? corentin@corerank.fr ou directement lors d'un appel de 30 min.

Testez votre site maintenant

Score GEO en 30 secondes, gratuit et sans inscription. Ou demandez l'audit complet avec test réel sur 4 LLMs et rapport PDF sous 24h.