Le token, prochaine monnaie de l’IA

Un cadre dirigeant rédige son compte-rendu de comité en six minutes, là où il aurait fallu une heure. Plus loin, dans un laboratoire de développement, un ingénieur sort en une matinée le squelette d’une application qui lui aurait pris une semaine. Ailleurs encore, un analyste termine son étude le vendredi soir au lieu du jeudi suivant. Derrière chacune de ces scènes, un compteur tourne en silence, semblable à celui des taxis d’autrefois, et enregistre une unité de consommation que l’utilisateur n’aperçoit presque jamais. Cette unité s’appelle un token. Encore inconnue du grand public, elle s’apprête à dessiner l’une des grilles économiques les plus structurantes de notre rapport à la technologie.

Une mécanique déjà éprouvée à plus petite échelle

Le mouvement a un précédent que beaucoup ont oublié. Il y a vingt ans, le téléphone mobile traversait une transformation comparable, à des proportions plus modestes. Quelques mégaoctets de data suffisaient pour consulter ses courriels, jusqu’à ce que la navigation web, la photographie, la vidéo, la géolocalisation et le travail à distance fassent du gigaoctet la mesure cardinale du quotidien connecté. Les opérateurs ont alors appris à facturer cette dépendance progressive, qui s’est installée presque sans débat public, comme un fond naturel de l’existence moderne.

L’intelligence artificielle prolonge cette logique en y ajoutant un saut qualitatif considérable. La connectivité mobile facturait l’accès à l’information ; le calcul artificiel facture désormais la production même de réflexion, de texte, de code, parfois de décisions préparées. La data avait fait de chacun un individu connecté ; le token fait de chacun un individu assisté, et la différence se mesurera dans la durée aux sommes engagées par les uns et les autres pour cette nouvelle forme d’aide.

Le token, en quelques mots

Le terme désigne, au sens technique, un fragment de langage que le modèle sait lire et générer, comparable en taille à une syllabe ou à un mot court. Une demande écrite à un assistant conversationnel se trouve d’abord découpée en une série de ces fragments, que la machine traite avant de produire à son tour de nouveaux fragments pour composer sa réponse. Les éditeurs facturent séparément les deux flux, et la sortie coûte systématiquement plus cher que l’entrée, parce que générer du texte mobilise davantage de calcul que d’en lire.

Quelques ordres de grandeur permettent de cadrer la mesure. Une discussion d’une dizaine de minutes avec un modèle haut de gamme représente quelques milliers de tokens, soit une fraction de centime sur la facture finale. Une journée de travail soutenu, ponctuée de relectures de documents, de génération de code et d’orchestration d’agents, peut grimper à plusieurs centaines de milliers de tokens. Une organisation équipant vingt personnes d’un agent capable de relire de longs dossiers approche rapidement les dizaines de milliers d’euros mensuels. Une assistance conversationnelle à grande clientèle entre dans une autre dimension encore, où l’arbitrage entre la longueur d’une réponse et son coût devient un paramètre opérationnel quotidien.

Derrière ces ordres de grandeur, les éditeurs déploient une grille tarifaire de plus en plus lisible. Les modèles les plus avancés sont réservés aux raisonnements longs, aux corpus complexes ou au code exigeant ; les modèles plus légers prennent en charge les usages de volume. Les forfaits grand public absorbent une partie de cette mécanique, ce qui maintient le particulier dans une douce illusion de gratuité. Le professionnel, lui, regarde déjà sa facture grimper.

Ce que j’observe dans mon laboratoire

Dans mon propre laboratoire de développement, où je prototype des outils internes, automatise des tâches répétitives et construis des projets personnels sans ambition industrielle, la même équation se vérifie semaine après semaine. La première séance d’un projet sérieux laisse souvent une impression vertigineuse. Une intention formulée au matin peut donner un prototype fonctionnel le soir, et le gain obtenu sur la revue de code, la génération de squelettes ou la rédaction de tests transforme à lui seul le rythme d’un développeur isolé.

Vient ensuite la limite, et elle tient rarement au modèle. Elle vient de la ressource consommée. À mesure qu’un projet gagne en sérieux, le contexte transmis au modèle s’épaissit, entre le code existant à relire, les fichiers de configuration à comprendre, l’historique des décisions à intégrer et les corrections d’erreur à enchaîner. Chaque cycle de raffinement appelle un peu plus de calcul, et la qualité visée pousse à mobiliser les modèles les plus coûteux. La productivité réelle d’un projet IA dépend, au bout du compte, autant du modèle retenu que de la discipline de consommation tenue par l’équipe.

Les modèles open source occupent évidemment leur place dans le paysage, et plusieurs sont remarquables. Leur intérêt pour la souveraineté numérique, la recherche académique et certains usages techniques pointus reste indiscutable. L’expérience demeure cependant moins confortable pour quiconque a pris l’habitude des grands modèles propriétaires : la qualité du raisonnement marque un retrait sur les tâches complexes, le travail de mise au point demande davantage de réglages, et le passage en production sérieuse réclame souvent une infrastructure dédiée que peu d’équipes savent encore administrer. Une nuance importante mérite d’être rappelée à ce stade du débat public, en France comme ailleurs : un modèle distribué gratuitement laisse intacte la question du coût réel de l’intelligence finalement produite.

L’infrastructure invisible qui supporte le compteur

Le compteur qui tourne en silence ne sort pas du néant. Sous chaque token se déploie une chaîne industrielle dont l’ampleur reste largement sous-estimée. L’intelligence artificielle exige des data centers d’une taille sans équivalent dans l’histoire récente, des processeurs graphiques produits en quantités contraintes par une poignée d’industriels, des systèmes de refroidissement avancés, et des capitaux dont l’ampleur rivalise désormais avec celle des plus grandes infrastructures énergétiques de la planète.

Les chiffres méritent qu’on s’y attarde. L’Agence internationale de l’énergie estime que les data centers ont consommé environ 415 TWh d’électricité en 2024, soit près de 1,5 % de la consommation mondiale, avec une croissance annuelle de 12 % sur le quinquennat précédent. Sa projection pour 2030 atteint 945 TWh, l’équivalent de la consommation électrique totale du Japon aujourd’hui. Les centres spécialisés dans l’IA pèsent, à eux seuls, quatre à cinq fois plus qu’un centre traditionnel. McKinsey évalue par ailleurs à 6 700 milliards de dollars l’investissement mondial nécessaire d’ici 2030 pour soutenir cette demande de calcul, dont 5 200 milliards spécifiquement dédiés aux infrastructures IA.

Le confort d’usage perçu par l’utilisateur final repose donc, derrière l’écran, sur l’une des chaînes industrielles les plus capitalistiques de la décennie. Chaque facture mensuelle reçue par un client professionnel intègre, dans des proportions variables, du calcul brut, du matériel, de l’électricité, des salaires d’ingénieurs et de la rémunération d’actionnaires. La grandeur de l’édifice se transmet par tranches infimes jusqu’au compteur de l’utilisateur, et cette transmission impose mécaniquement une bataille économique d’un genre nouveau.

Une bataille économique discrète mais décisive

Le modèle économique du logiciel reposait historiquement sur la licence vendue à l’unité ou à l’utilisateur. Celui de l’intelligence artificielle s’oriente vers une facturation à l’usage réel, mesurée en tokens, dont la conséquence la plus immédiate tient au contraste de consommation entre profils. Un collaborateur qui rédige quelques courriels hebdomadaires pèse peu sur le budget global. Le même collaborateur, équipé d’agents qui automatisent une chaîne de traitement, font relire des dossiers volumineux et orchestrent plusieurs sous-modèles, peut consommer cent à mille fois plus à temps égal.

Les éditeurs proposent déjà des modèles tarifaires hybrides combinant abonnement à seuil, crédits acquis d’avance, paiement à l’usage variable, priorité de traitement et mise en cache des requêtes répétées. Le grand public perçoit encore mal cette mécanique, que les forfaits standards absorbent largement. Les directions générales, elles, verront vite émerger une question que peu de comités exécutifs savent traiter aujourd’hui : quel volume de tokens pour quel gain réel ? La discipline du dimensionnement existe déjà dans le cloud computing, la téléphonie d’entreprise ou les déplacements professionnels. Elle gagnera l’intelligence artificielle plus vite que la plupart des organisations ne l’anticipent.

Une dépendance qui s’installe par confort

Au-delà de la mécanique tarifaire, le plus singulier dans cette histoire tient à la douceur du mouvement. Le rapport à l’intelligence artificielle s’installe librement, jour après jour, à mesure que la machine débloque les difficultés et accélère la production, pendant que l’humain se contente progressivement de ratifier. Personne ne contraint les utilisateurs à recourir à ces outils ; ils y viennent par confort, par gain de temps, soulagés que la machine prenne en charge l’essentiel des tâches.

Le seuil d’exigence personnelle se déplace au passage. Ce qui constituait jadis l’épreuve normale du travail intellectuel, c’est-à-dire la page blanche, la lenteur d’un brouillon, l’effort initial du raisonnement, devient un inconfort dont l’usager cherche à s’épargner. La première tâche confiée à la machine en appelle naturellement d’autres, jusqu’à ce qu’une fraction notable du jugement soit elle-même déléguée. Cette dépendance s’installe parce qu’elle paraît raisonnable, productive et légitime, ce qui en fait l’une des formes les plus puissantes de notre époque.

Apprendre à penser en tokens

Les équipes qui dépassent le stade de la découverte développent peu à peu quelques réflexes assez simples. Elles réservent les modèles les plus coûteux aux tâches qui les justifient réellement et confient le reste à des modèles intermédiaires moins gourmands. Elles travaillent leur mise en contexte en amont, résumant ou indexant un document avant de le soumettre à l’analyse, ce qui évite qu’une partie significative de la facture ne paye la transmission brute de fichiers volumineux. Elles intègrent le coût des agents autonomes au budget projet dès le cadrage, plutôt que de le découvrir en fin d’exercice. Et elles mesurent leurs gains réels d’usage, presque toujours plus modestes que l’effet produit en démonstration.

Dans quelques années, les entreprises sérieuses tiendront sans doute des tableaux de bord de consommation IA comparables à ceux qu’elles maintiennent aujourd’hui pour le cloud, l’énergie ou la téléphonie. Les particuliers découvriront, de leur côté, que les usages avancés rencontrent toujours une limite, qu’elle s’appelle quota mensuel, surcoût ponctuel, abonnement supérieur ou dégradation silencieuse du modèle proposé sous forfait standard.

Le token dira la vérité économique de l’IA

L’intelligence artificielle se présente le plus souvent comme une révolution de la productivité. Son legs économique le plus durable tiendra cependant à un déplacement plus discret : l’apparition d’une unité comptable mesurant chaque acte de pensée délégué à une machine. Le token, dans la décennie qui vient, dira progressivement quelle part du travail intellectuel a effectivement basculé du côté du calcul, et fixera le prix auquel chacun aura consenti à ne plus accomplir lui-même ce qui relevait, hier encore, du travail ordinaire. Le compteur, pour l’heure, tourne en silence. Il finira par parler.