40% des recherches en ligne passent aujourd'hui par des interfaces d'intelligence artificielle — ChatGPT, Perplexity, Gemini, Claude. Ce chiffre va doubler d'ici fin 2026. La question n'est plus "est-ce que Google me trouve ?" mais "est-ce que les IA me citent ?".

Si tu n'as jamais entendu parler de LLM Readiness, tu es probablement déjà en retard. Mais pas de panique — ce guide te donne exactement ce qu'il faut pour comprendre, auditer, et corriger la situation.

Partie 1 : C'est quoi le LLM Readiness — et pourquoi ça compte plus que ton PageRank

Le PageRank, c'est fini. Enfin, pas mort — mais secondaire. En 2026, la vraie question est : est-ce que ton contenu est structuré pour être compris et cité par un modèle de langage ?

Le LLM Readiness (ou "lisibilité IA") désigne la capacité d'un site web à être correctement ingéré, compris et restitué par les grands modèles de langage. Ce n'est pas un score Google. C'est une combinaison de signaux techniques, sémantiques et éditoriaux qui détermine si une IA comme ChatGPT va citer ton site — ou celui de ton concurrent — quand un utilisateur pose une question sur ton secteur.

Pourquoi c'est différent du SEO classique

Le SEO classique optimise pour des crawlers qui indexent des mots-clés et analysent des liens. Les LLM, eux, cherchent :

La clarté sémantique : le contenu répond-il clairement à une question ?
L'autorité de la source : le site est-il cité ailleurs sur des sujets similaires ?
La structure lisible par machine : les données structurées, les titres H1-H2-H3, le balisage Schema.org sont-ils cohérents ?
L'accessibilité au crawler IA : le robots.txt bloque-t-il GPTBot ou Anthropic-AI ?

Un site avec un PageRank correct mais sans données structurées, sans réponses directes aux questions, sans fichier llms.txt — ce site est invisible pour les IA. Il existe pour Google, il n'existe pas pour Perplexity.

La Generative Engine Optimization (GEO) : le nouveau terrain de jeu

La GEO — Generative Engine Optimization — est l'adaptation du SEO à l'ère des moteurs génératifs. Elle repose sur trois piliers :

Contenu citationnable : des affirmations claires, sourcées, factuelles
Structure machine-readable : Schema.org, Open Graph, données structurées
Accessibilité aux crawlers IA : configuration robots.txt et llms.txt

Si ton agence SEO ne parle pas encore de GEO, pose-lui la question. Sérieusement.

Partie 2 : Les 8 signaux que les IA regardent sur ton site

Voici la checklist originale que tu dois avoir en tête avant tout audit.

Signal 1 — Le robots.txt autorise-t-il les crawlers IA ?

GPTBot (OpenAI), Anthropic-AI, PerplexityBot, Google-Extended — ces bots ont leurs propres user agents. Si ton robots.txt les bloque, même implicitement via une règle générique, ton site n'est pas crawlé pour alimenter les modèles.

Exemple problématique :

User-agent: *
Disallow: /

Exemple correct :

User-agent: GPTBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: PerplexityBot
Allow: /

Signal 2 — As-tu un fichier llms.txt ?

Le fichier llms.txt est la convention émergente de 2026. Positionné à la racine du site (/llms.txt), il indique aux modèles de langage quelles pages sont prioritaires, quelle est la mission du site, et comment interpréter le contenu.

Exemple minimal :

# RoastMySite
> Outil d'audit IA pour landing pages — 90 secondes, 10 catégories.

## Pages principales
- [Accueil](https://www.roastmysite.dev/)
- [Fonctionnalités](https://www.roastmysite.dev/features)
- [Tarifs](https://www.roastmysite.dev/pricing)

## À propos
RoastMySite analyse les landing pages avec l'IA et génère un score sur 100 en 90 secondes.

Ce fichier n'est pas encore un standard officiel W3C, mais OpenAI, Anthropic et Perplexity le reconnaissent déjà dans leurs documentations techniques.

Signal 3 — Tes données Schema.org sont-elles présentes et valides ?

Les LLM sont entraînés sur du HTML. Le Schema.org permet de labelliser explicitement ce que chaque élément représente. Une Organization, un Product, un FAQPage, un HowTo — ces types donnent aux IA le contexte pour citer correctement ton contenu.

Exemple pour une FAQ :

{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [{
    "@type": "Question",
    "name": "Qu'est-ce que le LLM Readiness ?",
    "acceptedAnswer": {
      "@type": "Answer",
      "text": "Le LLM Readiness désigne la capacité d'un site à être correctement compris et cité par les grands modèles de langage."
    }
  }]
}

Signal 4 — Ton contenu répond-il directement aux questions ?

Les LLM adorent le contenu qui commence par répondre à la question, puis explique. Le format "question → réponse directe → contexte" est exactement le pattern que Perplexity et ChatGPT extraient pour construire leurs réponses.

Si tes articles commencent par "Dans cet article, nous allons explorer..." — tu rates des citations.

Signal 5 — Tes métadonnées Open Graph sont-elles complètes ?

og:title, og:description, og:image, og:url — ces balises ne servent pas qu'à Twitter et LinkedIn. Certains LLM les utilisent pour comprendre le sujet principal d'une page avant même d'analyser le contenu.

Signal 6 — Le contenu est-il accessible sans JavaScript ?

ChatGPT, lors de son crawl, ne rend pas systématiquement le JavaScript. Si ton contenu principal est chargé via du JS côté client (React SPA sans SSR), il peut être invisible. Le Server-Side Rendering (SSR) ou la génération statique (SSG) est obligatoire pour le LLM Readiness.

Signal 7 — As-tu des liens entrants depuis des sources citées par les LLM ?

Wikipedia, les études académiques, les médias reconnus — ces sources sont sur-représentées dans les corpus d'entraînement des LLM. Être cité par ces sources, ou être mentionné dans du contenu que ces sources reprennent, augmente ta probabilité d'être cité en retour.

Signal 8 — Ton site a-t-il une page "À propos" structurée ?

Les LLM cherchent à valider l'autorité d'une source. Une page "À propos" avec un Organization Schema.org, des références vérifiables, une équipe identifiée — c'est un signal fort de fiabilité.

Partie 3 : Comment auditer ton site manuellement

Voici un processus en 5 étapes que tu peux exécuter aujourd'hui, sans outil payant.

Étape 1 — Vérifie ton robots.txt

Accède à https://tonsite.com/robots.txt. Cherche les directives User-agent: GPTBot, User-agent: anthropic-ai, User-agent: PerplexityBot. Si elles n'existent pas, tes pages sont accessibles par défaut — vérifie que aucune règle Disallow: / générique ne les bloque.

Commande curl pour tester :

curl -A "GPTBot" https://tonsite.com/robots.txt

Étape 2 — Teste ton rendu sans JavaScript

Dans Chrome DevTools, désactive JavaScript (Settings > Debugger > Disable JavaScript) et recharge la page. Si le contenu principal disparaît, tu as un problème de LLM Readiness.

Alternative : utilise curl https://tonsite.com et vérifie que le contenu principal est dans le HTML retourné.

Étape 3 — Valide tes données structurées

Utilise le Rich Results Test de Google (search.google.com/test/rich-results) ou le Schema Markup Validator (validator.schema.org). Ces outils te montrent exactement ce que les crawlers voient.

Cibles minimales pour 2026 :

Organization sur la page d'accueil
WebPage ou Article sur chaque article de blog
FAQPage sur les pages FAQ
Product ou SoftwareApplication sur les pages de produit

Étape 4 — Analyse la lisibilité sémantique de ton contenu

Prends tes 5 pages les plus importantes. Pour chacune, pose-toi la question : "Si une IA lit uniquement le H1, les H2, et le premier paragraphe de chaque section — comprend-elle ce que je propose ?"

Si la réponse est non, restructure.

Étape 5 — Vérifie les méta-balises et Open Graph

En ligne de commande :

curl -s https://tonsite.com | grep -E '(og:|twitter:|description)'

Ou utilise un outil comme opengraph.xyz pour visualiser comment les IA et réseaux sociaux voient ta page.

Si tu veux aller plus vite, RoastMySite fait exactement ce travail en 90 secondes. Tu obtiens un score LLM Readiness parmi 10 catégories analysées par l'IA — avec les corrections prioritaires à appliquer.

Partie 4 : Ce que tu dois corriger en priorité

Tous les problèmes ne se valent pas. Voici le classement par impact.

Priorité 1 (critique) — Débloquer les crawlers IA dans robots.txt

Impact immédiat. Si GPTBot ou Anthropic-AI sont bloqués, rien d'autre n'a d'importance. C'est le mur avant la porte.

Temps de correction : 10 minutes.

Priorité 2 (haute) — Activer le SSR sur les pages clés

Si ton site est une SPA React ou Vue sans rendu serveur, les LLM voient une page blanche. Pour Next.js, passe à export default async function Page() avec des données fetchées côté serveur. Pour les SPA pures, envisage un pré-rendu statique des pages clés.

Temps de correction : 1 à 3 jours selon la stack.

Priorité 3 (haute) — Implémenter Schema.org sur les pages prioritaires

Commence par la homepage (Organization), les articles (Article), et les pages FAQ (FAQPage). Utilise Google Tag Manager ou implémente directement dans le <head> en JSON-LD.

Temps de correction : 2 à 4 heures par type de page.

Priorité 4 (moyenne) — Créer le fichier llms.txt

10 minutes de travail pour un signal qui différencie ton site de 99% de tes concurrents en 2026. Ce fichier sera de plus en plus valorisé à mesure que les modèles l'intègrent dans leurs protocoles de crawl.

Temps de correction : 30 minutes.

Priorité 5 (moyenne) — Restructurer le contenu en format Q&R

Pour les pages qui ciblent des requêtes informationnelles, restructure en sections "Question directe → Réponse en 1-2 phrases → Détail". Ce format est exactement ce que les LLM extraient pour leurs réponses.

Temps de correction : 1 à 2 heures par page.

Conclusion : ton site existe-t-il vraiment ?

En 2026, avoir un site bien référencé sur Google n'est plus suffisant. Les utilisateurs posent leurs questions à des IA, et ces IA répondent avec les sources qu'elles ont correctement ingérées. Si ton site ne respecte pas les signaux de LLM Readiness, tu offres des clients potentiels à tes concurrents qui, eux, ont fait le travail.

L'audit manuel décrit dans ce guide prend une demi-journée. Il te donnera une image claire de là où tu en es.

Tu veux pas le faire manuellement ? RoastMySite calcule ton score LLM Readiness en 90 secondes — avec une analyse sur 10 catégories, les points critiques identifiés, et un plan d'action priorisé. Le plan Free te donne accès à 1 roast par semaine et 2 catégories sans payer un centime. Si tu veux le rapport complet avec les 10 catégories et le plan d'action détaillé, c'est 19.99€/mois avec le plan Pro.

Ton site est peut-être déjà invisible. Autant le savoir maintenant.

Ton site est invisible pour les IA : le guide complet pour auditer et corriger son LLM Readiness en 2026