Boîte ouverte
45 signaux. 4 LLMs. Une formule calibrée sur des audits terrain réels. Voici exactement comment fonctionne notre Score GEO — sans rien cacher sur les limites.
01 — Principe
La logique derrière le choix
Les LLMs (ChatGPT, Perplexity, Gemini, Claude) citent une marque quand trois conditions sont réunies : ils peuvent crawler son site, ils peuvent comprendre qui elle est, et ils ont confiance dans la fraîcheur de l'information.
Nos 45 signaux couvrent exactement ces trois dimensions, regroupées en 4 catégories :
Total : 192 points bruts. La formule convertit ce score brut en Score GEO sur 100 (voir section 03). Les données structurées représentent 31% du total — c'est intentionnel : ce sont les signaux les plus directement actionnables et les plus impactants sur les LLMs.
02 — Signaux
Chaque signal, son poids, et pourquoi il compte
ChatGPT ne peut pas indexer votre contenu si GPTBot est bloqué dans robots.txt. Impact direct sur ses mises à jour de base de connaissance. Pondération ×2 pour le score ChatGPT.
Documentation OpenAI crawling
Perplexity recherche activement le web en temps réel. Le bloquer = absent de ses citations quelle que soit la qualité de votre contenu. Pondération ×2 pour le score Perplexity.
Comportement crawl Perplexity observé
Anthropic crawle avec deux bots : ClaudeBot et anthropic-ai. Les deux doivent être autorisés pour être indexé dans les futures mises à jour de Claude.
Anthropic crawling docs
Distinct de Googlebot — alimente spécifiquement Gemini et les AI Overviews Google. Nécessite une autorisation explicite. Pondération ×2 pour le score Gemini.
Google Search Central
Guide texte à la racine du site qui oriente les LLMs sur le contenu prioritaire. Lu activement par Perplexity et Claude depuis fin 2024. Présent sur moins de 5% des sites français.
Anthropic · Jeremy Howard (fastai)
CCBot alimente les datasets d'entraînement de GPT-4, LLaMA, Gemini et Mistral. Le bloquer = absent des futurs LLMs lors de leurs ré-entraînements. Signal souvent négligé mais structurant long terme. Pondération ×2 pour ChatGPT.
Common Crawl Foundation
Applebot crawle pour Apple Intelligence et Siri, en forte croissance sur iOS/macOS depuis 2024. Autorisé par défaut si absent de robots.txt, mais le bloquer explicitement exclut du réseau Apple IA.
Apple Search documentation
Crawler de Meta AI et LLaMA. Meta AI dépasse 500M d'utilisateurs actifs — être indexé dans ses datasets représente un levier de visibilité croissant.
Meta AI documentation
Le signal le plus impactant du scoring. Permet aux LLMs d'extraire directement vos questions-réponses sous forme structurée. ChatGPT cite 3× plus les sites avec FAQ schema (Princeton GEO Study 2023). Signal #1 tous LLMs.
Princeton GEO Study 2023
Votre carte d'identité LLM. Un schema Organization avec sameAs pointant votre entité Wikidata permet à ChatGPT de vous reconnaître comme entité connue et non comme un site web anonyme. Pondération ×2 ChatGPT.
Knowledge graph OpenAI
Référence directe à votre Q-number Wikidata dans le HTML ou le schema. Renforce l'identification de l'entité. Pondération ×2 ChatGPT, ×1.6 Claude et Perplexity.
OpenAI knowledge graph
Particulièrement efficace pour les requêtes "comment faire". ChatGPT et Gemini utilisent activement les HowTo schema pour structurer leurs réponses. Pondération ×1.8 Gemini, ×1.8 ChatGPT.
Schema.org HowTo spec
Indique aux IA vocales et à Claude quels passages de votre contenu sont prioritaires. Valorisé par Claude (pondération ×2) et Gemini. Présent sur moins de 2% des sites français.
Anthropic docs
Communique la structure de navigation aux LLMs. Aide à comprendre la hiérarchie du contenu et le contexte de chaque page lors du crawl.
Schema.org
Schema AggregateRating ou Review. Signal de crédibilité fort — les LLMs citent davantage les marques avec des avis vérifiés (E-E-A-T). Pondération ×1.6 ChatGPT et Gemini, ×1.4 Perplexity et Claude.
Schema.org · E-E-A-T · Google
Schema Person ou balisage auteur identifié. Signal E-E-A-T valorisé par Claude (×1.8) et Gemini. Indique aux LLMs qu'un humain expert est derrière le contenu — facteur de confiance clé depuis 2024.
Google E-E-A-T · Anthropic
Propriété sameAs dans Organization reliant Wikipedia, Wikidata, LinkedIn. Ancre le site dans le graphe de connaissance des LLMs — réduit la confusion entre entités homonymes. Pondération ×1.8 ChatGPT.
Schema.org · OpenAI Knowledge Graph
FAQPage avec au moins 3 paires Question-Réponse bien formées. La quantité et la qualité comptent — un schema avec 1 seule Q&R apporte peu. Signal complémentaire au FAQ schema de base. Pondération ×2 ChatGPT.
Princeton GEO Study
Schema Article avec datePublished et dateModified. Perplexity pondère massivement la fraîcheur — un site sans dates structurées passe systématiquement après les sites datés.
Perplexity freshness algorithm
Présence de dates récentes dans le contenu HTML brut (pas nécessairement en schema). Signal de fraîcheur de base détecté lors du crawl proxy.
Perplexity freshness
Ratio texte/HTML > 15%. Un site principalement composé de code avec peu de texte offre peu de substance aux LLMs. Proxy de qualité de contenu.
Content quality proxy LLMs
Page avec au moins 300 mots de texte visible réel. Proxy de profondeur pour les LLMs — une page trop courte est rarement citée comme source fiable. Pondération ×1.4 Perplexity.
Content quality research
Questions suivies de réponses directes dans le texte visible. C'est le format que les LLMs extraient et citent en priorité pour les requêtes conversationnelles. Pondération ×1.8 ChatGPT, ×1.6 Perplexity.
Princeton GEO Study 2024
H2 ou H3 contenant des mots interrogatifs (comment, pourquoi, qu'est-ce que…). Capture les requêtes conversationnelles des utilisateurs de LLMs. Pondération ×1.8 Perplexity, ×1.6 ChatGPT.
GEO best practices 2024
Chiffres concrets, pourcentages ou données vérifiables dans le contenu. Les LLMs préfèrent citer du contenu factuel et chiffré — signe de sérieux et de fiabilité. Pondération ×1.8 Perplexity.
Perplexity citation patterns
Blocs synthèse ("En bref", "L'essentiel", "À retenir") placés en début de section. Cités en priorité par Perplexity (×2) et ChatGPT lors des réponses aux requêtes informationnelles.
Perplexity + ChatGPT patterns
Premier paragraphe visible de 80+ mots, direct et informatif, qui répond immédiatement au sujet de la page. Signal #1 de ce que les LLMs lisent en premier lors du crawl. Pondération ×2 Perplexity, ×1.8 ChatGPT.
GEO research 2024
H2 descriptifs (≥3 mots) et H3 bien imbriqués sous les H2. Une structure heading riche aide les LLMs à naviguer le contenu et à extraire les bons passages pour chaque requête. Pondération ×1.6 ChatGPT.
GEO + SEO structure
Liens vers sources autorité (gouvernement, Wikipedia, études académiques, institutions). Signal E-E-A-T fort valorisé par Claude (×2) et Gemini. Prouve la rigueur factuelle du contenu.
E-E-A-T · Google Quality Rater Guidelines
Requis par tous les LLMs. Un site HTTP est traité comme non fiable. Pondération ×2 pour Gemini.
IETF RFC 2818
og:title + og:description + og:image. Quand les LLMs prévisualisent votre contenu, un OG complet donne une identité visuelle et textuelle claire.
ogp.me spec
Temps de réponse lors du crawl proxy. Un site lent ou avec WAF bloquant ralentit ou empêche l'indexation par les bots IA. Note : ce n'est pas la vraie vitesse de chargement utilisateur.
Core Web Vitals
Balise <title> entre 30 et 65 caractères. Trop court = peu informatif. Trop long = tronqué lors de l'extraction par les LLMs.
SEO best practices
Entre 80 et 160 caractères. Utilisée par les LLMs pour comprendre rapidement le sujet d'une page sans la crawler intégralement.
SEO best practices
Une seule balise H1 — le titre principal de la page. Signal de clarté structurelle pour les LLMs lors de l'extraction du sujet principal.
HTML5 spec
Présence de H2 et H3. Une structure heading claire aide les LLMs à segmenter le contenu par sujet et à extraire les bons passages pour chaque requête.
HTML structure
Attribut lang sur la balise <html>. Indique la langue aux LLMs pour prioriser les réponses en français sur les requêtes FR.
HTML5 spec
sitemap.xml accessible à la racine. Aide les crawlers IA à découvrir et indexer l'ensemble du contenu — essentiel pour les grands sites avec des centaines de pages.
Sitemaps.org · Google
<link rel="canonical"> déclaré sur toutes les pages. Évite la dilution des signaux entre pages dupliquées — un signal de crédibilité pour les LLMs et les moteurs. Pondération ×1.4 Gemini.
Google Search Central
<meta name="viewport"> correctement configuré. Indique l'optimisation mobile — requis pour l'indexation mobile-first de Google et Gemini. Pondération ×1.6 Gemini.
Google Mobile-First Indexing
Absence de meta robots noindex. Signal critique — un site noindex est complètement invisible pour les LLMs et les moteurs de recherche. Malus fort si présent. Pondération ×1.4 tous LLMs.
Google robots meta spec
Images avec attribut alt descriptif. Aide les LLMs à comprendre le contenu visuel lors du crawl — signal d'accessibilité et de soin éditorial. Pondération ×1.4 Gemini.
Google Image SEO · WCAG
H1 descriptif avec au moins 25 caractères — pas juste le nom de marque ou un mot générique. Un H1 riche aide les LLMs à identifier immédiatement le sujet de la page. Pondération ×1.4 ChatGPT et Gemini.
SEO / GEO best practices
Au moins 5 liens internes sur la page. Aide les crawlers IA à découvrir les pages clés du site et à comprendre l'architecture du contenu — proxy de richesse éditoriale.
SEO crawl budget
Balises <article>, <main>, <header>, <section> utilisées. Structure que les LLMs parsent pour identifier le contenu principal et le distinguer de la navigation. Pondération ×1.2 Claude et Gemini.
HTML5 spec · ARIA
03 — Formule
Transparent, reproductible, calibré
Une fois les 45 signaux analysés, on calcule un score brut : points obtenus ÷ 192 × 100. Ce pourcentage brut est ensuite converti en Score GEO :
Formule Score GEO Corerank v2
Score GEO = min(96, round(raw% × 0.95))
Exemple 1 : 90 pts obtenus sur 192 → raw 47% → Score = min(96, round(47 × 0.95)) = 45
Exemple 2 : 130 pts obtenus sur 192 → raw 68% → Score = min(96, round(68 × 0.95)) = 65
Exemple 3 : 170 pts obtenus sur 192 → raw 89% → Score = min(96, round(89 × 0.95)) = 85
La formule est quasi-linéaire : un score de 50 veut vraiment dire que la moitié des signaux sont en place. Nous avons volontairement évité les courbes qui gonflent les scores moyens.
Pourquoi un plafond à 95 ? Même un site techniquement parfait sur les 45 signaux n'obtient pas 100. Les LLMs pondèrent aussi la notoriété de marque, le volume de contenu, les mentions externes — des dimensions qu'un outil proxy ne peut pas mesurer. Le plafond à 95 signale cette limite honnêtement.
80% des sites français scorent entre 35 et 60. Un score ≥ 70 place un site dans le top 5% des sites français en termes de préparation GEO — c'est l'objectif d'un accompagnement de 6 à 12 mois.
04 — LLMs
Chaque IA a ses propres priorités
Les 4 scores LLM sont calculés avec les mêmes 45 signaux mais des pondérations différentes. Elles reflètent les comportements documentés de chaque plateforme :
Ces pondérations sont basées sur la documentation publique de chaque plateforme, la Princeton GEO Study 2023, et nos observations sur 5+ audits manuels. Elles sont révisées trimestriellement.
05 — Terrain
Comment on a validé la formule
La formule a été calibrée sur 5 audits GEO manuels complets réalisés en 2025-2026. Pour chaque site, on a comparé le score automatique (via proxy public) avec le score calculé lors de l'audit manuel complet (crawl direct + test LLMs réels sur 30 requêtes) :
| Site | Score proxy | Score terrain | Écart | Cause de l'écart |
|---|---|---|---|---|
| corerank.fr — notre site | 82 | 85 | +3 pts | Speakable partiel non détecté en proxy |
| jimmyfairly.com — mode/optique | 64 | 71 | +7 pts | Schema Organization enrichi en JS |
| maisonsdumonde.com — retail/déco | 58 | 67 | +9 pts | FAQ schema en JS (SPA partielle) |
| europcar.com — mobilité | 43 | 58 | +15 pts | CDN Cloudflare bloque les proxies publics |
| credit-agricole.fr — banque | 36 | 50 | +14 pts | WAF bancaire strict — HTML quasi-vide en proxy |
| hellowatt.fr — énergie | 40 | 33 | −7 pts | Schema injecté via JS absent au proxy — mais aussi absent pour les crawlers IA |
Écart moyen : ±8 pts. Les deux cas à fort écart (Europcar, Crédit Agricole) illustrent le problème des CDN stricts. Le cas Hellowatt est intéressant : le score proxy est supérieur au score terrain parce que le schema injecté en JS est visible par notre proxy mais pas par les vrais crawlers IA.
06 — Comparatif
Deux outils complémentaires, pas interchangeables
| Dimension | Score GEO auto | Audit GEO Corerank |
|---|---|---|
| Délai | 30 secondes | 24 heures |
| Signaux analysés | 45 signaux via proxy | 45+ via crawl direct |
| Tests LLMs réels | Non — estimés | 30 requêtes × 4 LLMs |
| Concurrents cités | Non | Identifiés par requête |
| Sites SPA / JS | Partiel (shell HTML) | Complet (rendu navigateur) |
| Plan d'action | 3 quick wins génériques | Plan 6 mois priorisé |
| Rapport PDF | Non | 8 à 12 pages |
| Prix | Gratuit | Gratuit |
Le Score GEO automatique est conçu pour donner une direction rapidement : identifier les manques évidents, prioriser ce qui est actionnable. L'audit manuel va beaucoup plus loin — il teste ce que vos prospects voient réellement quand ils interrogent ChatGPT sur votre secteur.
07 — Limites
On ne cache rien
Sites avec CDN strict (grands groupes)
Cloudflare, Akamai ou WAF en mode strict bloquent les proxies publics. Résultat : seuls robots.txt, HTTPS et quelques headers sont mesurés. Le score est sous-estimé de 10 à 20 pts pour ces sites.
→ Pour les sites enterprise, l'audit manuel est indispensable pour avoir des données fiables.
Sites en SPA (React, Vue, Angular)
Les sites qui chargent leur contenu en JavaScript renvoient souvent un shell HTML quasi-vide au proxy. FAQ schema, Organization schema et texte injectés via JS ne sont pas détectés — et ne le sont pas non plus par les crawlers IA.
→ Si votre site est en SPA, le score proxy est probablement représentatif de ce que les LLMs voient vraiment. C'est précisément le problème à corriger.
Notoriété de marque et volume de contenu
Les LLMs pondèrent des facteurs qu'un proxy ne peut pas mesurer : le nombre de mentions web, la notoriété Wikidata, le volume de contenu publié, la cohérence historique de l'entité. Un site avec 0 FAQ schema mais 10 000 articles peut être très bien cité.
→ Le Score GEO technique est une condition nécessaire, pas suffisante.
Évolutions des algorithmes LLMs
Les pondérations et comportements des LLMs évoluent à chaque mise à jour majeure. Ce que ChatGPT priorise en mars 2026 peut évoluer. Nos pondérations sont basées sur les comportements documentés à la date de mise à jour affichée.
→ Mise à jour de la formule trimestriellement sur la base de nouvelles données terrain.
08 — Roadmap
Évolutions prévues
En cours
Prévu
Suggestion d'évolution ? corentin@corerank.fr ou directement lors d'un appel de 30 min.
Score GEO en 30 secondes, gratuit et sans inscription. Ou demandez l'audit complet avec test réel sur 4 LLMs et rapport PDF sous 24h.