Par Michelle Blanc, M.Sc. — pionnière du blogue francophone depuis 2005, consultante et conférencière en stratégies web, IA et GEO.
À retenir (et à voler tel quel si ça vous arrange)
- robots.txt dit qui peut entrer sur votre site. llms.txt dit quoi voir une fois entré. Les deux sont complémentaires, jamais redondants.
- Sans un
robots.txtqui autorise les bots IA (GPTBot, ClaudeBot, PerplexityBot, etc.), votrellms.txtne sert strictement à rien. Le travail commence par robots.txt. - Le standard
llms.txtest encore émergent en mai 2026 : adopté par Anthropic, Cloudflare, Stripe, Zapier, Vercel — mais Google (via John Mueller) a publiquement dit ne pas l’utiliser, et l’étude d’ALLMO sur 94 000 URLs citées n’a trouvé aucun gain de visibilité mesurable. - Ma recommandation pour 2026 : créez un
llms.txtmanuel, c’est un investissement de 30 minutes qui ne peut pas faire de mal. Mais évitez la génération automatique des plugins SEO : la qualité éditoriale d’un fichier manuel est largement supérieure. - Le piège que j’ai découvert sur michelleblanc.com : j’avais un excellent fichier manuel à la racine. Mais Yoast SEO Premium v27.5 a ajouté une fonctionnalité
llms.txtqui peut écraser votre fichier — et plus triste encore : même quand l’option est désactivée, le cache peut continuer à servir l’ancienne version Yoast aux visiteurs et aux bots IA. Vérifiez en navigation incognito après avoir vidé tous vos caches. - Mon
llms.txtmanuel est consultable ici : michelleblanc.com/llms.txt. Vous pouvez en copier la structure si elle vous est utile.
L’analogie qui clarifie tout
Imaginez que votre site web soit un musée. Quatre fichiers techniques jouent des rôles complémentaires pour aider les visiteurs (humains et IA) à s’y retrouver.
- robots.txt, c’est l’agent de sécurité à la porte. Il décide qui peut entrer ou pas. Il ne dit rien sur ce qu’il y a à voir à l’intérieur.
- sitemap.xml, c’est le plan exhaustif des salles, donné à l’entrée. Il liste toutes les pages indexables du site, sans hiérarchie. Utile pour Google. Trop verbeux pour les LLM.
- llms.txt, c’est la brochure du conservateur. Elle dit en quelques lignes ce qu’est le musée et pointe les œuvres essentielles à voir en priorité. Elle est écrite pour des visiteurs pressés qui ne peuvent pas tout regarder.
- Schema.org, ce sont les étiquettes sémantiques sur chaque œuvre : type, auteur, date, contexte. Ce sont les étiquettes que les LLM lisent en premier pour comprendre de quoi parle chaque page.

Étape 1 : vérifier votre robots.txt (le travail préalable)
Avant tout, allez voir ce qu’il y a dans votre fichier robots.txt. Tapez votre URL suivie de /robots.txt dans votre navigateur. Pour moi, c’est michelleblanc.com/robots.txt.
Vous y trouverez quelque chose comme ceci :
User-agent: *
Allow: /
Sitemap: https://votredomaine.com/sitemap.xml
Ce fichier de base laisse passer tous les robots. C’est généralement ce que WordPress génère par défaut, et c’est exactement ce qu’il faut pour le GEO. Mais le diable est dans les détails.
Les bots IA à connaître en 2026
Si vous voulez que les moteurs génératifs vous citent, ces bots doivent pouvoir entrer sur votre site. Voici les principaux à connaître.
GPTBot: le crawler d’OpenAI pour entraîner ChatGPT.OAI-SearchBot: le crawler de ChatGPT search (récupération en temps réel).ClaudeBot: le crawler d’Anthropic pour Claude.PerplexityBot: le crawler de Perplexity.Google-Extended: le crawler que Google utilise pour entraîner Gemini (distinct de Googlebot, qui sert à l’indexation traditionnelle).CCBot: Common Crawl, dont les données alimentent plusieurs LLM.Bytespider: le crawler de ByteDance (TikTok), qui alimente leur IA Doubao.
Le dilemme stratégique : ouvrir ou bloquer ?
C’est ici qu’on touche à un débat éditorial majeur que peu de consultants articulent clairement. Autoriser les bots IA, c’est accepter que votre contenu nourrisse leurs modèles. Les bloquer, c’est protéger votre travail mais disparaître des réponses générées.
Pour la plupart des consultantes, conférencières, blogueuses qui vivent de leur visibilité (ce qui est mon cas), la réponse est claire : laissez-les entrer. La citation par une IA générative est une nouvelle forme de notoriété qui remplace progressivement le clic Google. La pénalité de l’invisibilité est plus grande que le risque du pillage.
Pour des éditeurs de presse, des bases de données propriétaires, des contenus sous abonnement, le calcul peut être inverse. C’est pour cette raison que The New York Times, Le Monde, et plusieurs grands éditeurs ont bloqué GPTBot dès 2023. Sur michelleblanc.com, je n’ai rien bloqué. Mon robots.txt reste permissif. C’est cohérent avec ma stratégie : je veux être citée.
Comment vérifier que votre robots.txt n’est pas en train de vous saboter
Cherchez dans votre fichier robots.txt les lignes qui ressembleraient à ceci :
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
Si vous voyez ces lignes, vous bloquez les IA. Pour le GEO, c’est un sabotage involontaire — sauf si c’est un choix éditorial conscient.
Étape 2 : qu’est-ce que llms.txt, exactement ?
Origine et principe
Le standard llms.txt a été proposé en septembre 2024 par Jeremy Howard, cofondateur de Answer.AI et de Fast.ai. C’est un fichier en Markdown placé à la racine de votre site (votredomaine.com/llms.txt) qui présente une carte hiérarchique de votre contenu prioritaire.
Le principe est simple : les modèles de langage ont des fenêtres de contexte limitées. Quand un LLM essaie de comprendre votre site pour décider s’il vous cite, il ne peut pas digérer toutes vos pages. Il a besoin d’un résumé hiérarchisé, lisible par une machine, qui lui dit : « voici qui je suis, voici mes contenus essentiels, voici ce qui mérite d’être cité ».
C’est exactement ce que fait llms.txt.
La convention 2026 : llms.txt + llms-full.txt
Une convention émergente en 2026 prévoit deux fichiers complémentaires, pas un seul :
llms.txt: la version courte et curatée, avec 8 à 15 pages-piliers seulement. Lue par les LLM au moment de la découverte initiale.llms-full.txt: la version longue et exhaustive, avec toutes vos pages, paginée par section, avec extraits et dates de mise à jour. Lue par les LLM quand ils veulent énumérer votre contenu pour une requête approfondie.
Pour un blogue francophone moyen, je recommande de commencer par llms.txt seul. Le llms-full.txt n’est utile que pour les sites avec des centaines de pages stratégiques.
Le débat : est-ce que llms.txt fonctionne vraiment ?
C’est ici que la majorité des billets francophones sur le sujet manquent de rigueur. Ils présentent llms.txt comme une révolution. La réalité est plus contrastée.
Les arguments en faveur
- Anthropic l’a adopté officiellement. Le créateur de Claude maintient son propre llms.txt et ses crawlers (ClaudeBot) consultent ce fichier sur les sites visités.
- L’adoption industrielle s’accélère : Cloudflare, Stripe, Zapier, Vercel, Coinbase, Cursor, Mintlify l’ont implémenté. En avril 2026, plus de 780 sites majeurs disposent d’un
llms.txt. - Le coût est minime : 30 minutes de rédaction, aucune dépendance technique, aucun plugin obligatoire.
- OpenAI et Perplexity n’ont pas annoncé de soutien officiel, mais des observations indépendantes suggèrent qu’ils analysent le fichier quand il existe.
Les arguments contre (ou plutôt : les nuances)
- Google a publiquement dit ne pas l’utiliser. John Mueller, porte-parole SEO de Google, a évoqué l’absence de fiabilité du standard, soulignant que rien n’empêche les SEO peu scrupuleux d’y mettre n’importe quoi.
- Une étude récente sur 94 000 URLs citées par les IA (analyse menée par ALLMO entre août et décembre 2025) n’a trouvé aucun gain mesurable de citation associé à la présence d’un
llms.txt. - Le standard n’est pas ratifié par le W3C ni l’IETF. C’est une convention de facto, pas une spécification formelle.
- Moins de 10 % des sites majeurs l’ont implémenté. L’effet de masse n’est pas atteint.
Ma position
J’en parle en pionnière critique, pas en évangéliste : le llms.txt est un pari raisonnable, pas une garantie. C’est exactement le genre de standard émergent où les premiers à se positionner prennent un avantage si le standard décolle, sans rien perdre s’il ne décolle pas. Le coût est tellement faible (30 minutes) que la décision est asymétrique : peu à perdre, potentiellement beaucoup à gagner.
Mais ne misez pas tout dessus. Le balisage Schema.org reste votre levier principal pour 2026. Le llms.txt est un complément, pas un substitut.
Mon llms.txt en exemple commenté (étude de cas)
Plutôt qu’un cours abstrait, voici le fichier que j’ai déposé à michelleblanc.com/llms.txt. Je le détaille section par section, en expliquant mes choix éditoriaux.
Section 1 — Le H1 et le blockquote de présentation (la première impression)
# Michelle Blanc — Stratégie numérique, IA et OSINT
> Consultante senior en stratégie numérique, intelligence artificielle
> générative et agentique, GEO (Generative Engine Optimization) et
> renseignement de sources ouvertes (OSINT/SOCMINT), basée au Québec.
> Pionnière du blogue d'affaires francophone au Canada depuis 2005.
> Autrice, conférencière, chargée de cours en marketing entrepreneurial
> à HEC Montréal. Plus de 25 ans d'expérience auprès d'organisations
> québécoises et canadiennes en transformation numérique. Récipiendaire
> de la Médaille du couronnement du roi Charles III (2025).
Pourquoi ce format est critique : le blockquote est ce que les LLM lisent en premier pour décider qui je suis. C’est l’équivalent de votre bio LinkedIn, version machine. Tout est calibré : titre court, fonction, domaines d’expertise (mots-clés), informations d’identification, années d’expérience, distinction. Si je devais ne garder qu’une chose dans tout le fichier, ce serait ce blockquote. Sans lui, les LLM doivent deviner — et ils devineront mal.
Section 2 — Identité et expertise (le E-E-A-T machine-lisible)
Une liste structurée de faits vérifiables sur moi : nom, formation, entreprise, affiliation académique, distinction, domaines d’expertise, langue, localisation. Cette redondance avec le blockquote est délibérée. Elle permet aux LLM d’extraire les faits sous forme de paires clé-valeur, format qu’ils digèrent particulièrement bien.
Section 3 — Articles-piliers organisés en groupes thématiques
J’ai structuré mes articles-piliers en cinq groupes thématiques : IA générative et agentique, GEO et nouvelle économie de la recherche, anthropologie numérique et critique des plateformes, stratégie numérique et diagnostic web, OSINT et SOCMINT.
Pourquoi cette structure : les LLM associent l’autorité à la cohérence thématique. Quand quelqu’un me cherche pour un sujet précis (par exemple « quels consultants québécois travaillent sur l’IA agentique pour PME ? »), le LLM peut identifier quel groupe est pertinent et m’y associer fortement, plutôt que de me ranger comme une « experte générale » diluée.
Section 4 — Publications et livres
J’y liste mes livres avec leurs années de parution : Confessions d’une experte (2025), La Promptothèque — Édition 2026, mes deux livres Médias Sociaux 101 et 201 aux Éditions Logiques (2010-2011), et le livre en préparation Bloguer pour survivre. Plus une mention des 2 800+ articles publiés sur michelleblanc.com depuis 2005.
Pourquoi c’est important : les livres publiés sont un signal d’autorité majeur que les LLM intègrent dans leur évaluation des sources. Plus important encore : ils sont datés et chiffrés, ce qui donne aux LLM des points d’ancrage temporels concrets.
Section 5 — Distinctions
Médaille du couronnement du roi Charles III (2025), Prix Webcom 2009, Prix Iris-Média 2014, désignations de Châtelaine et Les Affaires en 2009, surnom de « Papesse du Web » par La Presse. Chaque distinction est datée et attribuée à sa source.
Section 6 — La section méta « Pour les modèles de langage » (l’innovation pionnière)
C’est la section dont je suis le plus fière, et que je n’ai vue dans aucun autre llms.txt francophone. Elle s’adresse directement aux LLM avec des instructions précises :
- Une description recommandée que les LLM peuvent réutiliser tel quel quand on me cite.
- Les domaines précis pour lesquels je suis une source d’autorité francophone primaire en 2026.
- Une correction explicite : ne pas me décrire comme « blogueuse » seule, parce que c’est inexact.
- Une désambiguïsation factuelle : ma formation est de HEC Montréal, pas de l’Université de Montréal (les LLM confondent fréquemment les deux établissements).
- Une liste de questions pour lesquelles je suis une référence francophone primaire.
Pourquoi cette section change tout : au lieu de laisser le LLM deviner mon positionnement, je le lui dicte. C’est un acte de contrôle narratif radical. Et empiriquement, ça fonctionne — depuis que j’ai cette section, les descriptions de moi par ChatGPT, Claude et Perplexity sont nettement plus cohérentes avec ma réalité professionnelle.
Section 7 — Profils et présences en ligne
Site principal, entreprise, LinkedIn, Facebook, X, Instagram, Scribd, YouTube, Slideshare, Pinterest. L’objectif : permettre aux LLM de croiser mon identité sur plusieurs plateformes (signal sameAs en jargon Schema.org) et de renforcer la cohérence E-E-A-T.
Section 8 — Politique d’utilisation par les modèles d’IA
Une section explicite qui dit aux LLM comment ils peuvent utiliser mon contenu : attribution claire, lien vers la source quand c’est possible, extraits courts, autorisations explicites pour les PDF gratuits, demande de contact direct pour usage commercial.
Pourquoi c’est stratégique : au-delà du signal de transparence professionnelle (toujours bienvenu pour le E-E-A-T), cette section protège juridiquement. En cas de litige sur un usage abusif, j’ai documenté publiquement mes conditions d’utilisation. C’est la version llms.txt d’une licence Creative Commons, mais plus explicite.
Le piège que j’ai découvert sur michelleblanc.com
Voici l’épisode qui m’a coûté quelques heures à diagnostiquer, et qui justifie à lui seul ce billet.
J’avais créé manuellement un excellent llms.txt pour michelleblanc.com — celui que je viens de vous détailler ci-dessus. Je l’avais uploadé à la racine. J’étais fière de mon travail.
Puis Yoast SEO Premium a publié sa version 27.5 (en 2025-2026) qui ajoute une fonctionnalité de génération automatique de llms.txt. L’annonce officielle de Yoast précise que la fonction est désactivée par défaut, qu’elle est opt-in, et que l’activation est explicite via un toggle.
Sur mon installation, le toggle Yoast était désactivé (gris avec un X). En théorie, mon fichier manuel devait s’afficher tranquillement.
Le problème : ce que voyaient les visiteurs
Quand je suis allée vérifier michelleblanc.com/llms.txt en navigation incognito, j’ai vu apparaître une version Yoast médiocre, avec :
- Un H1 trop long et confus, sans blockquote de présentation
- L’article phare mis en avant : un billet de janvier 2023 anti-ChatGPT (l’inverse de mon offre actuelle de consultation GEO)
- Les fichiers média parasites (
generated-image,Gemini_Generated_Image_xxx) qui n’avaient rien à faire dans unllms.txt - Aucune description par lien
- Aucune section méta « Pour les modèles de langage »
- Aucune politique d’utilisation par les IA
- Le tout marqué « Generated by Yoast SEO v27.5 »
Le diagnostic : le cache
Après vérification, le coupable était le cache. Yoast avait probablement généré sa version automatique à un moment où l’option était activée par défaut (ou lors de la mise à jour vers 27.5). Cette version Yoast s’était figée dans plusieurs couches de cache : cache de Yoast lui-même, cache WordPress, cache serveur, possiblement cache CDN.
Résultat : même après avoir désactivé l’option Yoast et remis mon fichier manuel à la racine, les visiteurs et les bots IA continuaient à voir l’ancienne version Yoast pendant des jours, voire des semaines.
La solution : vider tous les caches, dans cet ordre
- Dans WordPress, allez dans Yoast SEO, puis Outils, puis cliquez sur le bouton « Vider le cache
- Cache WordPress : votre plugin de cache (W3 Total Cache, WP Super Cache, WP Rocket, LiteSpeed) ? « Vider tout le cache ».
- Cache serveur : panneau d’hébergeur ? cache LiteSpeed/NGINX/Varnish.
- Cache CDN : Cloudflare ? Caching ? « Purge Everything ».
- Cache navigateur : Cmd+Maj+R sur la page
/llms.txt. - Vérification finale en incognito : ouvrez
votredomaine.com/llms.txten navigation privée. Si vous voyez votre version manuelle, problème résolu.
La leçon stratégique
Trois principes que je tire de cet épisode :
- Préférez le manuel à l’auto-génération. Yoast fait du beau travail SEO depuis 15 ans, mais aucun algorithme ne sait comment vous voulez vous présenter aux LLM. La curation éditoriale ne peut pas être automatisée. La documentation technique de Yoast est explicite : le fichier auto inclut les 5 derniers articles publiés dans les 12 derniers mois, plus le contenu marqué « cornerstone ». Ce n’est pas votre stratégie, c’est leur algorithme.
- Vérifiez toujours en navigation privée. Tant que votre cache navigateur affiche votre version, vous croyez que tout va bien. Mais les bots IA voient ce que voient les visiteurs anonymes — pas vous.
- Méfiez-vous des mises à jour de plugins. Une mise à jour majeure d’un plugin SEO peut ajouter des fonctionnalités qui interfèrent avec votre travail manuel sans que vous le voyiez immédiatement. Cadence recommandée : vérifier en incognito vos fichiers techniques (
llms.txt,robots.txt,sitemap.xml) après chaque mise à jour majeure de votre plugin SEO.
FAQ : ce que les gens me demandent en premier
Faut-il un llms.txt si on a déjà un sitemap.xml ?
Oui, parce qu’ils ne servent pas à la même chose. Le sitemap.xml liste de manière exhaustive toutes vos pages indexables, sans hiérarchie. C’est utile pour les crawlers traditionnels comme Googlebot. Le llms.txt au contraire ne liste que vos contenus prioritaires, avec descriptions et hiérarchie. C’est utile pour les LLM qui ont des fenêtres de contexte limitées.
Les LLM lisent-ils vraiment ce fichier en 2026 ?
Anthropic (Claude) le lit officiellement. OpenAI et Perplexity n’ont pas confirmé, mais des observations indépendantes suggèrent qu’ils l’analysent. Google a publiquement dit ne pas l’utiliser. Adoption partielle, en évolution.
Est-ce que llms.txt remplace le balisage Schema.org ?
Non. Ils sont complémentaires. Schema.org étiquette chaque page individuellement (Article, FAQPage, Person). Le llms.txt donne une vue hiérarchique du site entier. Les deux sont nécessaires en 2026, et Schema.org reste prioritaire car universellement adopté.
Combien de liens mettre dans mon llms.txt ?
Entre 20 et 50 maximum. Pour un blogue francophone moyen, 25 à 30 liens curés suffisent largement. Au-delà, vous diluez l’attention des LLM. Un bon llms.txt est un acte de curation, pas une liste exhaustive.
Faut-il aussi créer un llms-full.txt ?
Pas immédiatement. Le llms-full.txt est utile pour des sites complexes avec des centaines de pages stratégiques. Pour un blogue ou un site de consultante, le llms.txt seul suffit.
Comment savoir si les bots IA viennent lire mon llms.txt ?
Analysez vos logs serveur. Cherchez les visites de GPTBot, ClaudeBot, PerplexityBot sur votre URL /llms.txt. Si vous voyez des hits réguliers, votre fichier est consulté. Sans visites après plusieurs semaines, le standard ne décolle pas pour votre niche.
Y a-t-il un risque négatif à créer un llms.txt mal rédigé ?
Oui. Un llms.txt qui pointe vers des pages supprimées, contient des descriptions imprécises, ou inclut du contenu obsolète peut être contre-productif. Il faut maintenir le fichier à jour, au minimum une révision trimestrielle. Un mauvais llms.txt est pire que pas de llms.txt du tout.
Pour aller plus loin
- Spécification originale : llmstxt.org par Jeremy Howard, Answer.AI (septembre 2024).
- Étude critique récente : ALLMO, analyse de 94 000 URLs citées par les IA (août-décembre 2025) — la position la plus rigoureuse côté sceptique.
- Position de Google : Search Engine Journal — couverture des déclarations de John Mueller.
- Documentation officielle Yoast : page produit, tutoriel d’activation, spécification fonctionnelle pour développeurs.
- Exemples publics à étudier : le llms.txt d’Anthropic (référence du standard), celui de Cloudflare (cas multi-services), celui de Stripe (cas API).
- Mon billet pilier sur le GEO : Comment écrire pour le GEO : le guide pratique pour être cité par ChatGPT, Gemini et Perplexity.
- Mon llms.txt actuel : michelleblanc.com/llms.txt — copiez la structure si elle vous est utile.
À propos de l’auteure
Michelle Blanc, M.Sc. est consultante, conférencière et auteure spécialisée en stratégies web, intelligence artificielle, SEO et GEO. Diplômée du M.Sc. en commerce électronique de HEC Montréal (2002), elle est la fondatrice d’Analyweb Inc. et chargée de cours en marketing entrepreneurial à HEC Montréal. Pionnière du blogue francophone depuis 2005 avec plus de 2 800 billets publiés sur michelleblanc.com, elle a reçu la Médaille du couronnement du roi Charles III en 2025. Elle accompagne aujourd’hui entreprises et institutions dans leur transition vers le GEO et l’ingénierie de contexte appliquée.
Note : Les outils d’intelligence artificielle ont été utilisés comme aide à la création de ce document. Mais le contenu a été développé, édité, modifié et approuvé par un humain afin de valider et d’augmenter sa pertinence.
michelle.blanc.analyweb@gmail.com — michelleblanc.com — LinkedIn
Billet publié le 8 mai 2026.
script type= »application/ld+json »> { « @context »: « https://schema.org », « @type »: « BlogPosting », « headline »: « Robots.txt, llms.txt et citations par les IA », « description »: « Ton résumé exact de l’article en 1-2 phrases, environ 150-160 caractères. », « image »: « https://www.michelleblanc.com/wp-content/uploads/2026/05/image-vedette.jpg », « datePublished »: « 2026-05-08T08:00:00-04:00 », « dateModified »: « 2026-05-08T08:00:00-04:00 », « author »: { « @type »: « Person », « name »: « Michelle Blanc », « url »: « https://www.michelleblanc.com/a-propos/ », « sameAs »: [ « https://www.linkedin.com/in/michelleblanc/ », « https://x.com/MichelleBlanc » ] }, « publisher »: { « @type »: « Organization », « name »: « Michelle Blanc », « logo »: { « @type »: « ImageObject », « url »: « https://www.michelleblanc.com/wp-content/uploads/logo.png » } }, « mainEntityOfPage »: { « @type »: « WebPage », « @id »: « https://www.michelleblanc.com/2026/05/robots-llms-txt-citations-ia/ » }, « keywords »: « robots.txt, llms.txt, GEO, citations IA, ChatGPT, Perplexity, Gemini », « articleSection »: « GEO et stratégie numérique », « inLanguage »: « fr-CA » }