Arrête de compter tes messages. Claude compte tes tokens.
La plupart des gens qui me demandent comment mieux utiliser Claude Anthropic ont le même problème.
Ils pensent en messages. Claude pense en tokens.
Ce n’est pas la même chose, et cette confusion explique 90% des frustrations sur les limites d’usage.
Un token, c’est environ 4 caractères de texte. Chaque message que tu envoies oblige Claude à relire l’intégralité de l’historique de la conversation depuis le début. Pas juste ton dernier message. Tout. Et ce coût augmente de manière exponentielle à mesure que la conversation s’allonge.
| Messages | Tokens total | Ratio |
|---|---|---|
| 5 messages | 7 500 tokens | ×1 |
| 10 messages | 27 500 tokens | ×3,6 |
| 20 messages | 105 000 tokens | ×14 |
| 30 messages | 232 000 tokens | ×31 |
Au message 30, tu dépenses 31 fois plus de tokens qu’au message 1, pour une réponse de qualité identique.
Et ce n’est pas seulement une question de coût. La précision de récupération du contexte chute de 92% à 256k tokens à 78% à 1M tokens. Autrement dit : plus la conversation est longue, plus Claude est cher et moins bon. La fenêtre de 1M tokens est une assurance, pas une cible.
Ce que ça veut dire en pratique : ce n’est pas la longueur de tes questions qui épuise ton quota. C’est la longueur de tes conversations.
Voici comment corriger ça, que tu utilises Claude.ai au quotidien ou Claude Code en développement.
Claude: 8 habitudes qui changent tout
Pour maîtriser l’art du prompt engineering Claude et optimiser tes interactions, adopte ces habitudes.
1. Édite ton prompt, ne corrige pas

Quand Claude rate sa réponse, le réflexe naturel est d’envoyer un message de correction. C’est une erreur.
Chaque message supplémentaire s’ajoute à l’historique. Claude relit tout à chaque tour, y compris l’échange raté qui n’a servi à rien.
La bonne méthode pour un prompt engineering Claude efficace : clique sur Modifier sur ton message original, corrige-le, régénère la réponse. L’ancien échange est remplacé, pas empilé. Tu repars propre.
Réflexe à ancrer : si ta première tentative était mauvaise, elle ne mérite pas de rester dans le contexte.
2. Cible la section, pas le tout
Quand Claude rate une partie de sa réponse, le réflexe naturel est de demander de tout refaire. C’est une erreur doublement coûteuse : tu génères à nouveau l’intégralité de l’output, et tu allonges l’historique.
Si un rapport fait 2 000 tokens et que la section 3 est mauvaise, « refais le rapport » brûle 2 000 tokens d’output supplémentaires. « Refais uniquement la section 3, garde le reste » en brûle une fraction.
Règle simple : pointe exactement ce qui ne va pas. Ajoute « sans commentaire, sans explication, juste l’output » quand tu sais ce que tu veux, Claude est verbeux par défaut, et cette verbosité se paie en tokens. Pour une meilleure optimisation, sois précis.
3. Reset avant 120k tokens, pas après
C’est la règle la plus simple et la plus ignorée.
Passé 15-20 échanges, ou dès que tu approches les 120k tokens, la majorité de tes tokens ne servent plus à générer du contenu utile. Ils servent à relire un historique dont Claude n’a plus vraiment besoin. Attendre que Claude compacte automatiquement le contexte à 95% de la limite, c’est trop tard : tu as déjà brûlé l’essentiel.
La méthode pour ne rien perdre : avant de fermer la conversation, envoie ce prompt à Claude
« Je vais redémarrer une conversation. Résume le contexte important, les décisions prises, et où on en est, de façon compacte. »
Copie le résumé. Ouvre un nouveau chat. Colle-le en premier message. Tu repars avec un contexte propre et zéro tokens gaspillés sur l’historique, une approche digne d’un expert en SEO du prompt.
4. Uploade tes fichiers en markdown, pas en PDF
Si tu uploades le même PDF, brief ou guide de style dans plusieurs conversations, Claude retokenize ce document à chaque fois. Mais le format compte autant que la fréquence.
Un document en markdown consomme environ 90% moins de tokens qu’en HTML, et 65 à 70% moins qu’en PDF. Si tu as le choix du format, convertis en markdown avant d’uploader.
La fonctionnalité Projects de Claude.ai complète ça : tu uploades une fois, le fichier est mis en cache. Chaque nouvelle conversation dans ce projet y accède sans consommer de tokens supplémentaires. Si tu travailles régulièrement avec des documents longs: contrats, briefs clients, documentation technique, combiner markdown + Projects peut diviser drastiquement ta consommation, un atout pour l’optimisation de la rétention de tokens.
5. Nouveau sujet = nouveau chat
Tu travailles sur un post LinkedIn, puis tu demandes un brief client, puis tu penses à une relance email, dans le même chat. Claude relit le post LinkedIn et le brief à chaque fois qu’il pense à ta relance. Du contexte mort qui se recharge inutilement.
La règle est simple : chaque sujet distinct mérite son propre chat. Pas besoin que la conversation soit longue pour que le contexte soit pollué, il suffit qu’il soit hétérogène, comme une mauvaise segmentation marketing.
6. Configure la Mémoire et tes Préférences utilisateur
Sans contexte sauvegardé, chaque nouvelle conversation commence à zéro. Tu te retrouves à réécrire ton rôle, ton style, tes contraintes: 3 à 5 messages de setup brûlés à chaque session.
Dans Paramètres → Mémoire et préférences utilisateur, enregistre une fois pour toutes :
- Ton rôle et ton secteur
- Ton style de communication préféré
- Tes contraintes récurrentes (langue, format, longueur)
Claude les applique automatiquement à chaque nouveau chat. Plus de setup. Plus de tokens perdus sur ce que Claude devrait déjà savoir. Ton rôle et ton secteur, ton style de communication préféré, tes contraintes récurrentes (langue, format, longueur) sont autant d’éléments pour affiner ton profil client idéal pour Claude.
7. Utilise Haiku pour les tâches simples
Vérification de grammaire, mise en forme, brainstorming rapide, traduction, reformulation, Haiku gère tout ça à une fraction du coût de Sonnet.
Le modèle mental à avoir :
- Haiku → tâches rapides, faible complexité
- Sonnet → vrai travail de fond, analyse, rédaction
- Opus → réflexion complexe, arbitrages difficiles
Choisir le bon modèle, c’est la décision la plus impactante sur ton budget tokens. Utiliser Sonnet pour corriger une virgule, c’est prendre un taxi pour aller chercher le pain, une erreur d’optimisation du taux de conversion de ressources.
8. Désactive les fonctionnalités que tu n’utilises pas
Recherche web, connecteurs, réflexion avancée, chaque fonctionnalité active ajoute des tokens à chaque réponse, même si tu n’en as pas besoin pour la tâche en cours, à l’instar des meilleurs outils marketing digital qui doivent être utilisés à bon escient.
Règle simple : si tu ne l’as pas activée intentionnellement pour cette tâche, désactive-la.
La réflexion avancée en particulier consomme beaucoup. Garde-la désactivée par défaut. Active-la uniquement si une première tentative sans réflexion était insuffisante, pas avant.
—
Claude Code : la même logique, un contexte différent

Claude Code fonctionne en sessions. Chaque session recharge le contexte depuis zéro, ou depuis ce que tu lui fournis explicitement. Les mêmes principes s’appliquent, mais les outils changent, en maîtrisant le prompt engineering Claude pour le développement.
Le MEMORY.md fait le travail du résumé, mais garde-le court
Dans Claude normal, tu résumes manuellement avant de changer de chat. Dans Claude Code, c’est le rôle du MEMORY.md.
Ce fichier est lu automatiquement au démarrage de chaque session. Il contient ce que Claude Code doit savoir sans que tu le réécrives : architecture du projet, conventions de code, décisions prises, fichiers clés, ce qui ne fonctionne pas, un peu comme un plan de marquage pour ton IA.
Un MEMORY.md bien tenu, c’est zéro tokens perdus en recontextualisation. Un MEMORY.md absent ou mal maintenu, c’est 10 minutes de briefing à chaque session, et autant de tokens brûlés sur ce que Claude aurait dû déjà savoir.
Attention cependant : un MEMORY.md trop long produit l’effet inverse. Anthropic le documente, au-delà d’un certain volume, Claude commence à l’ignorer partiellement. Garde-le sous 2 000 mots, centré sur l’essentiel permanent.
Pour les workflows ponctuels, un format de rapport spécifique, une séquence de tâches liée à un projet particulier, utilise des Skills plutôt que le MEMORY.md. Les Skills chargent à la demande. Le MEMORY.md charge à chaque session, qu’il soit utile ou non, une approche qui rappelle l’enrichissement de données ciblé.
Structure minimale utile :
## Projet
[Ce que fait le projet en 3 lignes]
## Stack
[Technologies, versions importantes]
## Conventions
[Ce que Claude doit respecter systématiquement]
## État actuel
[Où on en est, ce qui est en cours]
## À ne pas toucher
[Fichiers ou logiques à ne pas modifier sans validation]
Route les modèles selon la complexité
Claude Code peut utiliser différents modèles selon les tâches. Haiku pour l’orchestration et les tâches mécaniques, Sonnet pour la génération de code complexe.
Si tu utilises le même modèle puissant pour tout, y compris pour les appels répétitifs et les tâches simples, tu brûles des tokens inutilement. Le routing de modèles, c’est l’équivalent du tip Haiku/Sonnet dans Claude normal, appliqué à l’architecture de ton agent, optimisant ainsi la performance de ton équipe GTM Engineering virtuelle.
Sessions courtes, MEMORY.md à jour, /rewind si besoin
Même principe qu’avec Claude normal : une session qui s’étire accumule du contexte inutile.
La bonne pratique : sessions courtes et ciblées, avec une mise à jour du MEMORY.md à la fin de chaque session importante. Tu notes ce qui a changé, ce qui a été décidé, où tu en es. La session suivante repart avec un contexte propre et précis, optimisant ainsi ton tunnel de conversion de code.
Deux commandes utiles si tu es en cours de session :
- /rewind: supprime le dernier échange raté sans relancer toute la session
- /clear : suivi d’un message de handoff, équivalent du résumé de contexte dans Claude normal, mais en milieu de session
Pour les tâches de recherche intensives , scraping, analyse de logs, exploration de codebase, délègue à des sub-agents sur des modèles moins chers. Haiku en agent de recherche, Sonnet pour la synthèse et la génération. Tu gardes la qualité là où elle compte, tu économises partout ailleurs, une stratégie clé pour l’acquisition client efficace.
En résumé
| Habitude | Impact |
|---|---|
| Éditer plutôt que corriger | Supprime les échanges ratés de l’historique |
| Cibler la section, pas le tout | Réduit l’output régénéré + évite l’allongement inutile |
| Reseter avant 120k tokens | Évite l’explosion exponentielle + la dégradation qualité |
| Markdown + Projects pour les fichiers | −65 à 90% de tokens selon le format, zéro retokenization |
| Nouveau sujet = nouveau chat | Élimine le contexte mort qui se recharge |
| Mémoire et préférences configurées | Supprime le setup répété à chaque session |
| Haiku pour les tâches simples | Libère le budget pour ce qui en a besoin |
| Désactiver les features inutiles | Réduit le coût de chaque réponse |
| MEMORY.md court + Skills pour le reste | Chargement ciblé, pas de contexte subi |
| /rewind, /clear + sub-agents | Contrôle fin du contexte en cours de session |
La limite n’est pas le problème. La gestion du contexte, si.



