Voici une traduction en français le tout dernier article de Gary Marcus (vous pouvez retrouver la version originale ici). Après cette traduction, j’ai ajouté mon grain de sel à propos des retours décroissants…
==============
Gaspiller mille milliards de dollars est une chose terrible.
La communauté de l’apprentissage automatique prend enfin conscience de la folie ambiante, mais le détour de ces dernières années a été coûteux.
Gary Marcus – 27 Novembre 2025
Dernières nouvelles du célèbre chercheur en apprentissage automatique Ilya Sutskever :
Voici un autre résumé d’une interview récente de Sutskever qui fait grand bruit, un peu plus technique. En substance, Sutskever affirme que la mise à l’échelle (l’amélioration de l’IA grâce à un plus grand nombre de puces et de données ou « scaling ») atteint ses limites et que de nouvelles techniques sont nécessaires ; il se dit même ouvert aux techniques neurosymboliques et à l’innéité. Il ne prévoit clairement pas un avenir radieux pour les modèles de langage purement volumineux.
Sutskever a également déclaré : « Ce qui me semble le plus fondamental, c’est que ces modèles généralisent beaucoup moins bien que les gens. Et c’est flagrant. Cela me paraît être un point fondamental. »
Certaines de ces informations pourraient surprendre une grande partie de la communauté de l’apprentissage automatique ; elles peuvent paraître étonnantes venant de Sutskever, figure emblématique de l’apprentissage profond, qui a notamment contribué à l’article fondamental de 2012 démontrant l’impact considérable des GPU sur l’amélioration pratique de l’apprentissage profond, fondement des modèles linéaires. Il est également cofondateur d’OpenAI et considéré par beaucoup comme son chercheur principal jusqu’à son départ suite à une tentative infructueuse d’évincer Sam Altman.
Mais rien de ce qu’a dit Sutskever ne devrait surprendre, surtout pas les lecteurs de ce Substack, ni ceux qui me suivent depuis des années. En réalité, tout cela figurait déjà dans mon article de 2018, antérieur à GPT, intitulé « Deep learning: A Critical Appraisal », où je plaidais pour des approches neurosymboliques en complément des réseaux de neurones (comme le fait désormais Sutskever), pour des contraintes plus innées (c’est-à-dire intégrées plutôt qu’acquises) (ce que Sutskever appelle les « nouvelles contraintes inductives »), et/ou dans mon évaluation de 2022, « Deep learning is a wall », des LLM, où j’affirmais explicitement que les lois d’échelle de Kaplan atteindraient un point de saturation (comme Sutskever vient de le faire), et que les problèmes d’hallucinations, de vérité, de généralisation et de raisonnement persisteraient même avec l’augmentation de la taille des modèles, des points que Sutskever vient en grande partie de reconnaître.
Subbarao Kambhampati, quant à lui, défend depuis des années les limites de la planification avec les LLM . Emily Bender affirme depuis longtemps qu’une focalisation excessive sur les LLM « absorbe toute l’énergie » au détriment d’autres approches de recherche. L’ article d’Apple sur le raisonnement, injustement rejeté, a mis en lumière les problèmes de généralisation ; un autre article, intitulé « Le raisonnement par chaîne de pensée des LLM : un mirage ? Une analyse de la distribution des données », a porté un coup fatal au raisonnement et à la généralisation des LLM.
Rien de ce qu’a dit Sutskever ne devrait surprendre. Alexia Jolicoeur-Martineau, chercheuse en apprentissage automatique chez Samsung, a bien résumé la situation mardi sur X, suite à la diffusion de l’interview de Sutskever :
Bien sûr, rien n’est joué d’avance. Peut-être qu’une simple augmentation de la capacité de calcul (ajout de données et de puissance de calcul sans modifications architecturales fondamentales) résoudra comme par magie le problème que des chercheurs tels que Sutskever, LeCun, Sutton, Chollet et moi-même ne croyons plus possible.
Et les investisseurs pourraient bien rechigner à se défaire de cette habitude. Comme Phil Libin l’a judicieusement prédit l’an dernier, c’est la mise à l’échelle – et non la génération de nouvelles idées – que les investisseurs maîtrisent le mieux.
Il ne s’agit pas seulement du fait que les investisseurs en capital-risque maîtrisent mieux le développement d’entreprises que l’invention de nouvelles idées ; pour ceux qui ont tant façonné ce secteur, le développement, même en cas d’échec, a été une aubaine : un moyen d’empocher leurs 2 % de frais de gestion en investissant l’argent d’autrui dans des paris qui paraissaient plausibles mais qui étaient en réalité colossaux, les rendant riches quoi qu’il arrive. Certes, les investisseurs en capital-risque s’enrichissent encore davantage si les investissements sont fructueux, c’est certain. Mais ils sont couverts dans tous les cas ; même si tout s’effondre, les investisseurs eux-mêmes deviendront riches grâce aux seuls frais de gestion. (Ce sont leurs clients, comme les fonds de pension, qui en subiront les conséquences). Les investisseurs en capital-risque pourraient donc continuer à soutenir l’engouement pour les masters en droit, du moins pour un temps.
Mais admettons, pour les besoins de la démonstration, que Sutskever et nous autres ayons raison, que l’IA générale n’émergera jamais directement des masters en droit, que ces derniers ont, dans une certaine mesure, atteint leurs limites et que nous avons effectivement besoin de nouvelles idées.
La question qui se pose alors est la suivante : quel a été le coût pour le domaine et la société du fait qu’il ait fallu si longtemps au courant dominant de l’apprentissage automatique pour comprendre ce que certains d’entre nous, y compris la quasi-totalité de la communauté de l’IA neurosymbolique, disions depuis des années ?
La première et la plus évidente des réponses est l’argent, que j’estime, à la louche, à environ mille milliards de dollars, dont une grande partie est consacrée aux puces Nvidia et aux salaires faramineux. (Zuckerberg aurait apparemment embauché des experts en apprentissage automatique avec des salaires de 100 millions de dollars par an).
D’après les calculs d’Ed Zitron, « les géants de la tech ont besoin de 2 000 milliards de dollars de revenus liés à l’IA d’ici 2030, faute de quoi leurs investissements auront été vains ». Si Sutskever et moi avons raison concernant les limites des masters en apprentissage automatique (LLM), la seule façon d’atteindre ces 2 000 milliards de dollars est d’inventer de nouvelles idées.
Si la définition de la folie est de faire la même chose encore et encore en espérant des résultats différents, les investissements de mille milliards de dollars dans des expériences toujours plus coûteuses visant à atteindre l’IA générale pourraient bien être une folie au plus haut point.
En première approximation, toutes les grandes entreprises technologiques, d’OpenAI à Google en passant par Meta, xAI, Anthropic et plusieurs entreprises chinoises, continuent de répéter la même expérience : construire des LLM toujours plus grands dans l’espoir d’atteindre l’AGI.
Cela n’a jamais fonctionné. Chaque nouveau modèle, plus grand et plus coûteux, apporte des améliorations mesurables, mais les gains semblent diminuer (c’est ce que Sutskever affirme à propos des lois de Kaplan ) et aucune de ces expériences n’a résolu les problèmes fondamentaux liés aux hallucinations, à la généralisation, à la planification et au raisonnement, comme Sutskever le reconnaît désormais lui aussi.
Mais il ne s’agit pas seulement de la perte potentielle d’un billion de dollars, voire plus, mais aussi des dommages collatéraux considérables qui pourraient affecter le reste de la société, tant sur le plan économique qu’autrement (par exemple, en raison de l’ impact négatif des masters en droit sur l’enseignement supérieur ). Comme l’écrivait Rogé Karma dans un article récent de The Atlantic : « L’économie américaine tout entière repose sur la promesse de gains de productivité qui semblent encore bien loin de se concrétiser. »
À vrai dire, personne ne sait avec certitude quelle serait l’ampleur des conséquences. Si l’IA basée sur les technologies LLM ne répondait pas aux attentes et perdait de la valeur, qui en subirait les conséquences ? Uniquement les « commanditaires », comme les fonds de pension qui ont confié leur argent à des sociétés de capital-risque ? Ou les répercussions seraient-elles bien plus vastes ? Les banques pourraient-elles sombrer, dans une crise de liquidités similaire à celle de 2008, obligeant peut-être les contribuables à les renflouer ? Dans le pire des cas, l’impact d’une bulle de l’IA qui éclate pourrait être immense. (La consommation, largement alimentée par les personnes fortunées qui ont subi un revers boursier, pourrait également chuter, ce qui risquerait de provoquer une récession.)
Même la Maison Blanche a fait part de ses inquiétudes à ce sujet. Comme l’a déclaré David Sacks, le responsable de l’IA et des cryptomonnaies à la Maison Blanche, en début de semaine, en se référant à une analyse du Wall Street Journal : « Les investissements liés à l’IA représentent la moitié de la croissance du PIB. Un renversement de tendance risquerait de provoquer une récession. »
Extrait de l’article de Karma dans The Atlantic :
La prospérité que GenAI était censée apporter ne s’est guère concrétisée, si ce n’est par la hausse de leurs cours boursiers. (Nvidia fait exception, fournissant les composants essentiels – des puces de pointe – que les autres géants du secteur s’arrachent.) Comme le rapporte le Wall Street Journal , Alphabet, Amazon, Meta et Microsoft ont vu leur flux de trésorerie disponible diminuer de 30 % ces deux dernières années. Selon une estimation , Meta, Amazon, Microsoft, Google et Tesla auront dépensé collectivement 560 milliards de dollars en investissements liés à l’IA d’ici la fin de l’année, depuis début 2024, pour un chiffre d’affaires de seulement 35 milliards de dollars. OpenAI et Anthropic génèrent des revenus importants et connaissent une croissance rapide, mais restent encore loin du compte . Quasiment rentables, leurs valorisations respectives – environ 300 milliards et 183 milliards de dollars , et en constante augmentation – sont bien supérieures à leurs revenus actuels. (OpenAI prévoit un chiffre d’affaires d’environ 13 milliards de dollars cette année ; Anthropic , entre 2 et 4 milliards de dollars.) Les investisseurs misent gros sur la perspective de profits records grâce à ces dépenses. Si cette perspective s’avère erronée, ils pourraient se ruer sur les marchés, provoquant une correction brutale et importante.
…
L’éclatement de la bulle Internet a été grave, mais n’a pas déclenché de crise. Un éclatement de la bulle de l’IA pourrait avoir des conséquences différentes. Les investissements liés à l’IA ont déjà dépassé , en termes de part de l’économie, le niveau atteint par les télécommunications au plus fort de la bulle Internet. Au premier semestre de cette année, les dépenses des entreprises en IA ont contribué davantage à la croissance du PIB que l’ ensemble des dépenses de consommation . De nombreux experts estiment que si l’économie américaine a pu résister aux droits de douane et aux expulsions massives sans connaître de récession, c’est en grande partie parce que toutes ces dépenses en IA agissent, selon les termes d’un économiste, comme un « vaste programme de relance du secteur privé ». Un éclatement de la bulle de l’IA pourrait entraîner une baisse généralisée des dépenses, une diminution du nombre d’emplois et un ralentissement de la croissance, plongeant potentiellement l’économie dans la récession. L’économiste Noah Smith soutient même qu’une crise financière pourrait survenir si les prêts non réglementés du « crédit privé », qui financent une grande partie de l’expansion du secteur, venaient tous à s’effondrer simultanément.
L’ensemble paraît incroyablement fragile.
Pour le dire sans détour, le monde a misé à fond sur les LLM, mais, comme le souligne l’interview de Sutskever, il y a de nombreuses raisons de douter que les LLM tiennent un jour leurs promesses.
Le plus triste, c’est que la plupart des raisons sont connues depuis longtemps, même si elles n’étaient pas largement acceptées. Tout cela aurait pu être évité. Mais la communauté de l’apprentissage automatique a, avec arrogance, exclu d’autres voix, et même des domaines entiers comme les sciences cognitives. Et nous risquons tous d’en payer le prix.
Un vieux dicton à propos de telles folies dit que « six mois au laboratoire peuvent vous faire gagner un après-midi à la bibliothèque » ; ici, nous avons peut-être gaspillé mille milliards de dollars et plusieurs années pour redécouvrir ce que les sciences cognitives savaient déjà.
Un billion de dollars, c’est une somme astronomique qui pourrait être gaspillée. Si la zone d’impact est plus étendue, les dégâts pourraient être bien plus importants. On a l’impression d’assister à une tragédie grecque, un mélange évitable d’arrogance et de pouvoir qui risque fort de faire s’effondrer l’économie.
====================
Bon, comme vous l’avez deviné, il s’agit là d’une traduction automatique avec toutes les limites (et les déformations) que cela impose. Cependant, on comprend bien l’argument principal : le principe des retours décroissant frappe les LLMs à leur tour et les milieux financiers aiment le « scaling » (mise à l’échelle) qu’ils peuvent comprendre (au contraire de la vraie innovation qui parait -à juste titre- aléatoire).
Je trouve particulièrement savoureux cette mise en évidence des « retours décroissants » que j’ai déjà expliqué dans mon livre « Le fait technique« … Voici l’extrait concernant les retours décroissants :
===================
Les retours décroissants
On sait bien que toute nouvelle application produit ses plus grands résultats au début de sa mise en œuvre. Et ensuite, il faut de plus en plus d’efforts et de moyens pour récolter de moins en moins de résultats (du moins en proportion des efforts investis). C’est ça le principe des “retours décroissants” qui est le mieux et le plus facilement illustré par l’exemple de la mine. Au début, l’extraction du minerai, quand on tombe sur le filon, pas très loin de la surface, est relativement facile : en gros, il n’y a qu’à se baisser pour ramasser les pépites. Donc, résumons : peu d’efforts, des résultats spectaculaires, une très grosse rentabilité. Encouragés par ces débuts formidables, vous allez être prompts à investir pour augmenter les volumes : on commence à creuser plus loin, plus profond, à étayer les galeries, à poser des rails pour les wagonnets et à installer des pompes pour garder tout cela au sec. De plus en plus d’efforts pour une extraction qui, certes, croît en volume, mais à un prix évidemment plus élevé (y compris sur le plan proportionnel) qu’au début… On retrouve la même analogie partout : la percée est spectaculairement rentable, la suite beaucoup moins.
Et c’est la même chose vis-à-vis de l’IA : les premières percées qui produisent les résultats spectaculaires (forcément, on n’avait rien vu de tel auparavant) sont les plus faciles. Après, les raffinements et la généralisation (le test ultime) sont de plus en plus difficiles et délicats. On en a un exemple criant, en ce moment même, avec les déboires des voitures autonomes. Au tout début, voir circuler des voitures qui se dirigent sans qu’on se préoccupe de tenir le volant, c’était sensationnel !
Mais après, pour sortir des sentiers battus des expérimentations limitées en territoires connus et proposer des voitures autonomes de niveau 5 partout et tout le temps, quelque soit la météo, le revêtement et la circulation aux alentours, avec tous les types d’obstacles et d’aléas, c’est autre chose… Et c’est bien pour cela que la vraie voiture autonome se fait attendre et se fera attendre pendant encore bien des années. Même si c’est contre-intuitif, c’est la vérité.
En fait, les choses les plus difficiles en IA comme pour la robotique sont les tâches perceptuelles et motrices les plus élémentaires, comme le résume le paradoxe de Moravec :
« il est relativement facile de faire en sorte que les ordinateurs présentent des performances de niveau adulte lors de tests d’intelligence ou de jouer aux dames, mais il s’avère difficile ou impossible de leur donner les compétences d’un enfant d’un an en ce qui concerne la perception et la mobilité «
Hans Moravec a déclaré son paradoxe pour la première fois en 1988. Et comme c’était il y a de nombreuses années, du coup, on peut penser que cela n’est plus applicable. Mais plus de trente ans se sont écoulés depuis que Moravec a fait son observation, les ordinateurs sont devenus des milliards de fois plus rapides, les caméras sont devenues des millions de fois plus précises, et… rien n’a changé. Passées les démonstrations faciles, l’IA et la robotique peinent à franchir les obstacles du monde réel, car il leur manque notre “conscience de l’environnement” que nous avons et qui nous paraît évidente.
Donc, au lieu de la fameuse accélération dont on nous rebat les oreilles en permanence, on a là un “ralentissement croissant”. C’est complètement en opposition avec ce que les gens sont prêts à recevoir, à percevoir et à croire.
Le mode plateau
Donc, ils ne le voient pas (ce ralentissement croissant). Ce n’est même pas qu’ils ne le croient pas, ils ne le voient pas, car cela ne correspond pas au schéma de pensée qu’ils sont prêts à accepter (parce que la propagande a finalement réussi à leur faire croire que “tout allait toujours plus vite”).
Ce phénomène des retours décroissants et du ralentissement croissant, il est à l’œuvre partout et tout le temps sans qu’on en soit conscient. Si on prend les smartphones comme exemple, le gros du progrès a été réalisé avec la première génération d‘iPhone. Dès la troisième, nous sommes passés à un rythme d’innovation beaucoup moins fort, chaque nouvelle itération ne propose que des avancées marginales (retours décroissants ET ralentissement progressif), on est passé en mode “plateau” sans même s’en apercevoir, car, entretemps, une autre mode a pris le dessus sur la précédente et qui fait qu’on a toujours l’impression d’être dans le même courant d’innovations submergeantes, qui sature les possibilités de perception d’un public non-spécialisé qui, du coup, en déduit fort logiquement que “tout va toujours plus vite” même si, incontestablement, ce n’est pas le cas.
Comme toutes les idées reçues, il s’agit d’une stupidité sans nom et il suffit de réfléchir un peu pour se rendre compte de son absurdité : si tout allait toujours plus vite, il y a un moment qu’il n’y aurait plus aucun délai entre une découverte et son application avec sa généralisation dans la foulée…
Or, un simple examen des progrès techniques les plus récents démontre que nous butons toujours sur un délai incompressible de dix ans (oui, dix ans) entre une découverte et ses premières applications et qu’il faut encore vingt à trente ans pour atteindre un premier seuil de généralisation.
==============
Voilà, on en est là : l’IA générative est frappée à son tour par la loi des retours décroissants comme le machine learning l’a été il y a dix ans. La propagande n’évoque jamais cela, elle cherche même à le cacher mais c’est inutile : les faits sont têtus et finissent toujours par s’imposer…



