Comment économiser des Tokens sur Claude

Mise à jour : 22 avril 2026
IA & Outils

Arrête de compter tes messages. Claude compte tes tokens.

La plupart des gens qui me demandent comment mieux utiliser Claude Anthropic ont le même problème.

Ils pensent en messages. Claude pense en tokens.

Ce n’est pas la même chose, et cette confusion explique 90% des frustrations sur les limites d’usage.

Un token, c’est environ 4 caractères de texte. Chaque message que tu envoies oblige Claude à relire l’intégralité de l’historique de la conversation depuis le début. Pas juste ton dernier message. Tout. Et ce coût augmente de manière exponentielle à mesure que la conversation s’allonge.

Messages	Tokens total	Ratio
5 messages	7 500 tokens	×1
10 messages	27 500 tokens	×3,6
20 messages	105 000 tokens	×14
30 messages	232 000 tokens	×31

Au message 30, tu dépenses 31 fois plus de tokens qu’au message 1, pour une réponse de qualité identique.

Et ce n’est pas seulement une question de coût. La précision de récupération du contexte chute de 92% à 256k tokens à 78% à 1M tokens. Autrement dit : plus la conversation est longue, plus Claude est cher et moins bon. La fenêtre de 1M tokens est une assurance, pas une cible.

Ce que ça veut dire en pratique : ce n’est pas la longueur de tes questions qui épuise ton quota. C’est la longueur de tes conversations.

Voici comment corriger ça, que tu utilises Claude.ai au quotidien ou Claude Code en développement.

Claude: 8 habitudes qui changent tout

Pour maîtriser l’art du prompt engineering Claude et optimiser tes interactions, adopte ces habitudes.

1. Édite ton prompt, ne corrige pas

Quand Claude rate sa réponse, le réflexe naturel est d’envoyer un message de correction. C’est une erreur.

Chaque message supplémentaire s’ajoute à l’historique. Claude relit tout à chaque tour, y compris l’échange raté qui n’a servi à rien.

La bonne méthode pour un prompt engineering Claude efficace : clique sur Modifier sur ton message original, corrige-le, régénère la réponse. L’ancien échange est remplacé, pas empilé. Tu repars propre.

Réflexe à ancrer : si ta première tentative était mauvaise, elle ne mérite pas de rester dans le contexte.

2. Cible la section, pas le tout

Quand Claude rate une partie de sa réponse, le réflexe naturel est de demander de tout refaire. C’est une erreur doublement coûteuse : tu génères à nouveau l’intégralité de l’output, et tu allonges l’historique.

Si un rapport fait 2 000 tokens et que la section 3 est mauvaise, « refais le rapport » brûle 2 000 tokens d’output supplémentaires. « Refais uniquement la section 3, garde le reste » en brûle une fraction.

Règle simple : pointe exactement ce qui ne va pas. Ajoute « sans commentaire, sans explication, juste l’output » quand tu sais ce que tu veux, Claude est verbeux par défaut, et cette verbosité se paie en tokens. Pour une meilleure optimisation, sois précis.

3. Reset avant 120k tokens, pas après

C’est la règle la plus simple et la plus ignorée.

Passé 15-20 échanges, ou dès que tu approches les 120k tokens, la majorité de tes tokens ne servent plus à générer du contenu utile. Ils servent à relire un historique dont Claude n’a plus vraiment besoin. Attendre que Claude compacte automatiquement le contexte à 95% de la limite, c’est trop tard : tu as déjà brûlé l’essentiel.

La méthode pour ne rien perdre : avant de fermer la conversation, envoie ce prompt à Claude

« Je vais redémarrer une conversation. Résume le contexte important, les décisions prises, et où on en est, de façon compacte. »

Copie le résumé. Ouvre un nouveau chat. Colle-le en premier message. Tu repars avec un contexte propre et zéro tokens gaspillés sur l’historique, une approche digne d’un expert en SEO du prompt.

4. Uploade tes fichiers en markdown, pas en PDF

Si tu uploades le même PDF, brief ou guide de style dans plusieurs conversations, Claude retokenize ce document à chaque fois. Mais le format compte autant que la fréquence.

Un document en markdown consomme environ 90% moins de tokens qu’en HTML, et 65 à 70% moins qu’en PDF. Si tu as le choix du format, convertis en markdown avant d’uploader.

La fonctionnalité Projects de Claude.ai complète ça : tu uploades une fois, le fichier est mis en cache. Chaque nouvelle conversation dans ce projet y accède sans consommer de tokens supplémentaires. Si tu travailles régulièrement avec des documents longs: contrats, briefs clients, documentation technique, combiner markdown + Projects peut diviser drastiquement ta consommation, un atout pour l’optimisation de la rétention de tokens.

5. Nouveau sujet = nouveau chat

Tu travailles sur un post LinkedIn, puis tu demandes un brief client, puis tu penses à une relance email, dans le même chat. Claude relit le post LinkedIn et le brief à chaque fois qu’il pense à ta relance. Du contexte mort qui se recharge inutilement.

La règle est simple : chaque sujet distinct mérite son propre chat. Pas besoin que la conversation soit longue pour que le contexte soit pollué, il suffit qu’il soit hétérogène, comme une mauvaise segmentation marketing.

6. Configure la Mémoire et tes Préférences utilisateur

Sans contexte sauvegardé, chaque nouvelle conversation commence à zéro. Tu te retrouves à réécrire ton rôle, ton style, tes contraintes: 3 à 5 messages de setup brûlés à chaque session.

Dans Paramètres → Mémoire et préférences utilisateur, enregistre une fois pour toutes :

Ton rôle et ton secteur
Ton style de communication préféré
Tes contraintes récurrentes (langue, format, longueur)

Claude les applique automatiquement à chaque nouveau chat. Plus de setup. Plus de tokens perdus sur ce que Claude devrait déjà savoir. Ton rôle et ton secteur, ton style de communication préféré, tes contraintes récurrentes (langue, format, longueur) sont autant d’éléments pour affiner ton profil client idéal pour Claude.

7. Utilise Haiku pour les tâches simples

Vérification de grammaire, mise en forme, brainstorming rapide, traduction, reformulation, Haiku gère tout ça à une fraction du coût de Sonnet.

Le modèle mental à avoir :

Haiku → tâches rapides, faible complexité
Sonnet → vrai travail de fond, analyse, rédaction
Opus → réflexion complexe, arbitrages difficiles

Choisir le bon modèle, c’est la décision la plus impactante sur ton budget tokens. Utiliser Sonnet pour corriger une virgule, c’est prendre un taxi pour aller chercher le pain, une erreur d’optimisation du taux de conversion de ressources.

8. Désactive les fonctionnalités que tu n’utilises pas

Recherche web, connecteurs, réflexion avancée, chaque fonctionnalité active ajoute des tokens à chaque réponse, même si tu n’en as pas besoin pour la tâche en cours, à l’instar des meilleurs outils marketing digital qui doivent être utilisés à bon escient.

Règle simple : si tu ne l’as pas activée intentionnellement pour cette tâche, désactive-la.

La réflexion avancée en particulier consomme beaucoup. Garde-la désactivée par défaut. Active-la uniquement si une première tentative sans réflexion était insuffisante, pas avant.

—

Claude Code : la même logique, un contexte différent

Claude Code fonctionne en sessions. Chaque session recharge le contexte depuis zéro, ou depuis ce que tu lui fournis explicitement. Les mêmes principes s’appliquent, mais les outils changent, en maîtrisant le prompt engineering Claude pour le développement.

Le MEMORY.md fait le travail du résumé, mais garde-le court

Dans Claude normal, tu résumes manuellement avant de changer de chat. Dans Claude Code, c’est le rôle du MEMORY.md.

Ce fichier est lu automatiquement au démarrage de chaque session. Il contient ce que Claude Code doit savoir sans que tu le réécrives : architecture du projet, conventions de code, décisions prises, fichiers clés, ce qui ne fonctionne pas, un peu comme un plan de marquage pour ton IA.

Un MEMORY.md bien tenu, c’est zéro tokens perdus en recontextualisation. Un MEMORY.md absent ou mal maintenu, c’est 10 minutes de briefing à chaque session, et autant de tokens brûlés sur ce que Claude aurait dû déjà savoir.

Attention cependant : un MEMORY.md trop long produit l’effet inverse. Anthropic le documente, au-delà d’un certain volume, Claude commence à l’ignorer partiellement. Garde-le sous 2 000 mots, centré sur l’essentiel permanent.

Pour les workflows ponctuels, un format de rapport spécifique, une séquence de tâches liée à un projet particulier, utilise des Skills plutôt que le MEMORY.md. Les Skills chargent à la demande. Le MEMORY.md charge à chaque session, qu’il soit utile ou non, une approche qui rappelle l’enrichissement de données ciblé.

Structure minimale utile :

## Projet
[Ce que fait le projet en 3 lignes]

## Stack
[Technologies, versions importantes]

## Conventions
[Ce que Claude doit respecter systématiquement]

## État actuel
[Où on en est, ce qui est en cours]

## À ne pas toucher
[Fichiers ou logiques à ne pas modifier sans validation]

Route les modèles selon la complexité

Claude Code peut utiliser différents modèles selon les tâches. Haiku pour l’orchestration et les tâches mécaniques, Sonnet pour la génération de code complexe.

Si tu utilises le même modèle puissant pour tout, y compris pour les appels répétitifs et les tâches simples, tu brûles des tokens inutilement. Le routing de modèles, c’est l’équivalent du tip Haiku/Sonnet dans Claude normal, appliqué à l’architecture de ton agent, optimisant ainsi la performance de ton équipe GTM Engineering virtuelle.

Sessions courtes, MEMORY.md à jour, /rewind si besoin

Même principe qu’avec Claude normal : une session qui s’étire accumule du contexte inutile.

La bonne pratique : sessions courtes et ciblées, avec une mise à jour du MEMORY.md à la fin de chaque session importante. Tu notes ce qui a changé, ce qui a été décidé, où tu en es. La session suivante repart avec un contexte propre et précis, optimisant ainsi ton tunnel de conversion de code.

Deux commandes utiles si tu es en cours de session :

/rewind: supprime le dernier échange raté sans relancer toute la session
/clear : suivi d’un message de handoff, équivalent du résumé de contexte dans Claude normal, mais en milieu de session

Pour les tâches de recherche intensives , scraping, analyse de logs, exploration de codebase, délègue à des sub-agents sur des modèles moins chers. Haiku en agent de recherche, Sonnet pour la synthèse et la génération. Tu gardes la qualité là où elle compte, tu économises partout ailleurs, une stratégie clé pour l’acquisition client efficace.

En résumé

Habitude	Impact
Éditer plutôt que corriger	Supprime les échanges ratés de l’historique
Cibler la section, pas le tout	Réduit l’output régénéré + évite l’allongement inutile
Reseter avant 120k tokens	Évite l’explosion exponentielle + la dégradation qualité
Markdown + Projects pour les fichiers	−65 à 90% de tokens selon le format, zéro retokenization
Nouveau sujet = nouveau chat	Élimine le contexte mort qui se recharge
Mémoire et préférences configurées	Supprime le setup répété à chaque session
Haiku pour les tâches simples	Libère le budget pour ce qui en a besoin
Désactiver les features inutiles	Réduit le coût de chaque réponse
MEMORY.md court + Skills pour le reste	Chargement ciblé, pas de contexte subi
/rewind, /clear + sub-agents	Contrôle fin du contexte en cours de session

La limite n’est pas le problème. La gestion du contexte, si.

Articles qui peuvent vous intéresser

Claude Code Routines : comment les mettre en place

Les Routines Claude Code représentent un changement de paradigme dans l’automatisation par IA : vos agents cloud Anthropic travaillent 24h/24, sans Mac mini, sans serveur

Transformer Claude Code en vrai assistant

Claude Code est puissant. Mais sans structure, il repart de zéro à chaque session. Il ne sait pas qui vous êtes, ce que vous faites,

GUIDE Claude Code : du débutant à l’expert

Ce guide réunit trois niveaux de maîtrise de Claude Code. L’installation pour ceux qui démarrent, les workflows avec agents parallèles pour ceux qui livrent à

A propos de l'auteur

Constance Gatbois

J'accompagne les PME industrielles et SaaS dans le déploiement de systèmes IA pour leur acquisition commerciale. De la stratégie à l'implémentation technique : agents IA, automatisation, optimisation des process. Contenus actionnables.