Notre histoire — Satcove

L'idée que Satcove rend concrète n'est pas née en 2026. Elle a trente ans. En 1991, dans un article devenu une référence — « Adaptive Mixtures of Local Experts » —, Robert Jacobs, Michael Jordan, Steven Nowlan et Geoffrey Hinton posent une question qui paraît aujourd'hui d'une étonnante actualité : et si, plutôt que de confier une tâche à un unique réseau de neurones monolithique, on faisait collaborer plusieurs sous-réseaux spécialisés, chacun bon dans son domaine, arbitrés par un mécanisme qui décide à qui faire confiance selon la question ?

C'était une rupture conceptuelle. Jusque-là, l'intuition dominante consistait à construire un modèle unique, le plus gros et le plus complet possible, censé tout savoir. Les auteurs montrent l'inverse : diviser le problème entre des experts distincts, puis combiner leurs avis, donne de meilleurs résultats et un apprentissage plus stable. La force ne venait plus de la taille d'un seul cerveau, mais de la coopération entre plusieurs.

Cette graine est restée longtemps en sommeil, faute de puissance de calcul pour l'exploiter à grande échelle. Il a fallu attendre 2017 pour qu'elle ressurgisse avec éclat. Noam Shazeer et ses collègues de Google publient les travaux sur le « Sparse Mixture of Experts » : une architecture qui n'active, pour chaque requête, qu'une fraction d'un réseau gigantesque — les quelques experts les plus pertinents. On obtient ainsi des modèles d'une capacité inédite sans en payer le coût à chaque calcul. L'idée de 1991 devient enfin industrialisable.

En 2022, le grand public en touche les fruits sans même le savoir. Mistral popularise l'approche avec Mixtral 8x7B, un modèle où huit experts se partagent le travail, deux étant sollicités à chaque jeton produit. La « mixture d'experts » passe du laboratoire au produit ; elle devient l'un des secrets de fabrication des IA modernes les plus performantes.

Ce succès a une conséquence souvent mal comprise : la quasi-totalité des IA que nous utilisons aujourd'hui reposent déjà, en interne, sur une forme de collaboration entre experts. L'industrie entière a donc tranché la vieille question de 1991 — oui, la coopération bat le cerveau unique. Mais elle l'a tranchée à huis clos, à l'intérieur de chaque modèle, là où les experts partagent le même acte de naissance, les mêmes données d'entraînement et, fatalement, les mêmes certitudes erronées. Le désaccord y est domestiqué, jamais frontal.

Autrement dit : depuis 1991, la science sait qu'un seul point de vue se trompe et que confronter plusieurs intelligences produit de meilleures réponses. C'est un acquis, pas une mode. Ce qui manquait encore, ce n'était pas l'idée du consensus. C'était de le faire jouer non plus entre les pièces d'une même machine, mais entre des IA réellement différentes, conçues par des équipes différentes, capables de se contredire pour de vrai. Cette marche-là, personne ne l'avait encore franchie pour le grand public.

Une bonne idée ne vaut que si elle résiste à la mesure. Et c'est ce qui a basculé entre 2023 et 2026 : le consensus multi-IA est passé du statut d'intuition séduisante à celui de résultat démontré, reproduit, quantifié.

Le moment fondateur est un article de mai 2023 signé Yilun Du, Shuang Li, Antonio Torralba, Joshua Tenenbaum et Igor Mordatch, issus du MIT et de Google DeepMind : « Improving Factuality and Reasoning in Language Models through Multiagent Debate ». La démarche est limpide. On pose une question à plusieurs instances d'IA ; chacune répond ; puis on leur donne à lire les réponses des autres et on leur demande de réviser la leur ; on répète l'opération sur quelques tours. Le résultat est net : à la fin du débat, les réponses sont plus factuelles et le raisonnement plus solide qu'avec une IA seule. L'article sera accepté à ICML 2024, l'une des conférences les plus exigeantes du domaine — un sceau de sérieux scientifique.

Ce travail a aussi mis au jour des subtilités précieuses pour qui veut bien faire les choses. Faire débattre des copies identiques du même modèle aide moins que confronter des points de vue véritablement distincts : un cerveau qui se relit lui-même reste prisonnier de ses propres angles morts. Et la manière dont les IA s'échangent leurs arguments compte : une communication structurée, où chacune lit vraiment l'autre avant de répondre, l'emporte sur une simple critique menée en parallèle sans dialogue.

En 2024, Kamal Hegazy, chercheur affilié à Mila, enfonce le clou avec « Diversity of Thought ». Sa conclusion est directe et lourde de conséquences : faire délibérer des modèles différents bat le fait de multiplier les instances d'un même modèle. La diversité d'entraînement — des IA qui n'ont pas vu le monde à travers les mêmes données — pèse plus lourd que la diversité de prompt. C'est exactement la frontière que la « mixture d'experts » intra-modèle ne pouvait pas franchir : pour gagner, il faut des intelligences qui ne se ressemblent pas.

Ce résultat déplace le centre de gravité du problème : la question n'est plus seulement de faire débattre, mais de faire débattre des intelligences assez dissemblables pour que la confrontation apprenne réellement quelque chose. Deux modèles élevés sur des corpus différents ne se trompent pas aux mêmes endroits ; là où l'un dérape, l'autre, souvent, tient bon. C'est cette complémentarité des angles morts — et non un vote de plus — qui donne au panel sa valeur. Empiler des clones rassure ; croiser des regards corrige.

Puis viennent les chiffres qui ne laissent plus de place au doute. En avril 2026, l'étude « Council Mode » met des nombres sur le gain. Sur HaluEval, un banc d'essai conçu pour traquer les hallucinations, le mode conseil réduit ces dernières de 35,9 %. Sur TruthfulQA, qui mesure la propension d'un modèle à dire vrai plutôt qu'à répéter des idées fausses répandues, le consensus gagne 7,8 points par rapport au meilleur modèle individuel. Non pas par rapport à un modèle moyen ou faible : par rapport au meilleur, pris seul.

Le message cumulé de ces travaux est sans ambiguïté. Là où l'on opposait jadis l'intuition au scepticisme, on dispose désormais d'un faisceau de preuves convergentes, signées par les meilleures institutions, publiées dans les meilleures conférences. Plusieurs IA qui se confrontent hallucinent moins et raisonnent mieux qu'une IA seule, aussi brillante soit-elle. Ce n'est plus une opinion sur l'avenir ; c'est un fait sur le présent. Restait une question, et elle n'était pas scientifique : qui allait sortir cette vérité des laboratoires pour la mettre entre les mains de gens ordinaires, au moment précis où ils en ont besoin ?

Une découverte peut rester confidentielle des années durant, connue des seuls chercheurs. Il faut parfois un déclencheur culturel pour qu'une catégorie entière s'impose dans l'esprit du grand public. Pour le consensus multi-IA, ce déclencheur a une date : le 22 novembre 2025.

Ce jour-là, Andrej Karpathy publie sur GitHub un projet nommé « LLM Council ». Karpathy n'est pas un développeur anonyme : figure majeure de l'IA contemporaine, passé par OpenAI dont il fut l'un des membres fondateurs, puis directeur de l'intelligence artificielle chez Tesla, il est l'une des voix les plus écoutées du domaine. Et il raconte avoir codé ce « conseil de modèles » en un week-end, presque pour le plaisir de l'expérimentation.

L'architecture qu'il propose est élégante et tient en trois temps. D'abord, plusieurs grands modèles reçoivent la même question et y répondent en parallèle, indépendamment les uns des autres. Ensuite — et c'est l'astuce la plus fine — on leur soumet les réponses des autres pour évaluation, mais de façon anonymisée : aucune IA ne sait quelle réponse vient de quel modèle. Cette anonymisation vise à neutraliser le biais d'autorité, ce réflexe qui consisterait à juger une réponse meilleure simplement parce qu'elle porterait l'étiquette d'un modèle réputé. Enfin, un « Chairman », un modèle président placé hors du panel, lit l'ensemble et rédige la synthèse finale.

Le dépôt devient viral en quelques heures. Des milliers de développeurs le clonent, le commentent, le bricolent. La raison de cet emballement n'est pas seulement technique : c'est un signal. Quand quelqu'un de ce calibre prend la peine de coder publiquement cette idée et que la communauté s'en empare aussitôt, le monde de la tech valide d'un coup la catégorie tout entière. Le message implicite est clair : interroger une seule IA, c'est déjà du passé ; l'avenir consiste à les faire délibérer.

Au-delà de l'engouement, ce projet a fixé en quelques jours un vocabulaire et de bonnes pratiques que toute la catégorie a adoptés presque aussitôt : la réponse parallèle pour préserver l'indépendance des avis, l'évaluation à l'aveugle pour neutraliser le prestige des marques, la synthèse confiée à un arbitre distinct du panel. Une idée jusque-là dispersée dans des articles devenait, du jour au lendemain, un patron de conception partagé — un langage commun que chacun pouvait reprendre et discuter.

Mais Karpathy fait aussi une observation qui, loin de fragiliser l'idée, en montre la maturité — et trace la feuille de route de ce qui reste à résoudre. Il remarque que les modèles se montrent « étonnamment disposés » à juger la réponse d'un concurrent supérieure à la leur. Cette complaisance entre IA, cette forme de flagornerie où chacune s'efface trop volontiers, est un problème ouvert : un panel n'a de valeur que si ses membres défendent honnêtement leur position au lieu de s'aligner par politesse. Reconnaître ce défaut, c'est admettre que le consensus multi-IA n'est pas une recette magique mais une discipline exigeante, qui demande de l'ingénierie, des garde-fous et de l'honnêteté.

Au printemps 2026, dressons l'état des lieux honnêtement. La recherche est foisonnante : plus d'une centaine d'articles académiques explorent le débat et le consensus entre modèles. Le marché s'agite : on dénombre une dizaine de produits commerciaux qui revendiquent une forme de multi-IA. L'open-source abonde : des dépôts, des gabarits, des intégrations pour développeurs se multiplient. Sur le papier, la catégorie semble saturée.

Et pourtant, le constat le plus important est celui d'une absence. Aucun produit connu de ce vertical n'a réellement percé : aucun ne dépasse, à notre connaissance, les cent mille utilisateurs actifs, aucun n'a levé plus de cinquante millions de dollars sur ce seul créneau. La preuve scientifique était faite, la validation culturelle était acquise — mais personne n'avait transformé tout cela en un produit que des gens ordinaires adoptent vraiment, au quotidien.

La raison de ce vide tient à un malentendu sur le destinataire. Les chercheurs avaient leurs articles, écrits pour leurs pairs. Karpathy avait offert un dépôt magnifique — pour des ingénieurs, capables de gérer des clés d'API, une ligne de commande et un peu de configuration. Mais la personne réellement concernée par la fiabilité d'une réponse n'est ni chercheuse ni ingénieure. C'est quelqu'un face à une décision qui l'engage : un résultat d'analyse médicale à comprendre, une clause de contrat à déchiffrer, un arbitrage financier, un choix de vie. Cette personne-là n'avait ni application simple, ni verdict clair, ni la moindre garantie que sa question la plus intime ne servirait pas ailleurs.

Car les obstacles à franchir ne sont pas que de surface. Faire délibérer six IA coûte cher : on multiplie les jetons, donc la facture. Cela prend du temps : la latence d'un panel dépasse celle d'un modèle unique. Cela crée une dépendance vis-à-vis des fournisseurs : un produit baptisé OpenClaw a disparu en une seule journée d'avril 2026, quand Anthropic a coupé l'accès sur lequel il reposait entièrement. Et il existe un piège plus sournois encore : le faux signal d'autorité. Entendre que « six IA sont d'accord » peut rassurer à tort si, en réalité, deux seulement ont répondu, ou si elles partagent toutes la même source erronée. Un consensus mal présenté ment par omission.

Voilà le paysage que nous avions sous les yeux. D'un côté, trente ans de science qui disent la même chose : ne faites pas confiance à un seul avis. De l'autre, un monde de la tech qui venait, en quelques semaines, de hocher la tête en chœur. Et au milieu, un manque criant : aucun objet réel, fiable, mobile, respectueux de la vie privée, pour porter cette idée jusqu'à la main de celui qui en a besoin, au moment où il en a besoin.

C'est exactement dans ce vide que Satcove a été conçue. Non pas pour réinventer une roue que la recherche avait déjà taillée, mais pour résoudre les problèmes que personne n'avait voulu prendre à bras-le-corps : le coût, la latence, la dépendance aux fournisseurs, l'honnêteté du signal, et surtout la distance entre une vérité de laboratoire et une décision de vie. Combler ce vide n'avait rien d'évident : il fallait accepter d'industrialiser ce que d'autres laissaient à l'état de prototype, et de porter seul des contraintes que la recherche pouvait ignorer. La science avait raison depuis trente ans ; le monde venait de le reconnaître ; il manquait quelqu'un pour le rendre réel, robuste et accessible. C'est notre raison d'être.

Satcove est la forme aboutie de cette histoire de trente ans, ramenée à un geste simple. Tu poses une question. Six des meilleures intelligences artificielles du monde y répondent en parallèle, puis se confrontent : elles lisent les réponses des autres, défendent ou révisent leur position, et font apparaître leurs désaccords au lieu de les masquer. Au bout du compte, tu reçois un verdict synthétisé — clair, lisible, exploitable — accompagné de ce qui compte vraiment : la mesure de leur accord, et la carte de leurs divergences.

Nous avons fait trois choix que personne d'autre ne combine, et c'est cette combinaison, plus qu'aucun élément isolé, qui définit Satcove. Le premier choix est l'application iOS native. Pas un site web consulté à la va-vite depuis un onglet de navigateur, mais une vraie application pensée pour le téléphone que tu as toujours sur toi — parce qu'une décision importante se présente rarement quand tu es assis devant un ordinateur, et qu'un second avis n'a de valeur que s'il est accessible dans l'instant.

Le deuxième choix est l'Europe. L'hébergement et les données restent en Europe, sous le régime de protection le plus exigeant qui soit. Rien de ce que tu confies ne fuite, rien ne sert à entraîner quoi que ce soit, rien n'est revendu. Pour les questions qui justifient précisément qu'on croise plusieurs avis — la santé, l'argent, le droit, l'intime —, cette confidentialité n'est pas une option marketing : c'est la condition pour oser poser la vraie question, celle qu'on n'écrirait jamais dans un service qui se nourrit de nos données. Notre Privacy Shield anonymise les informations personnelles avant même que la moindre IA ne les voie.

Le troisième choix est l'honnêteté, et c'est peut-être le plus important. Satcove ne te servira jamais un faux « tout le monde est d'accord ». L'application te montre combien d'IA ont réellement répondu, et où, exactement, elles divergent. Si l'accord est fort, tu le sais et tu peux avancer. S'il est faible, tu le sais aussi : ce désaccord n'est pas un défaut du produit, c'est une information — le signal qu'il faut creuser, ou en parler à un professionnel. Nous préférons une vérité inconfortable à une certitude fabriquée. Satcove t'aide à décider ; elle ne décide pas à ta place, et ne remplace ni un médecin, ni un avocat, ni un conseiller.

Cette exigence d'honnêteté irrigue chaque détail. Quand un modèle est indisponible, nous le disons plutôt que de combler le silence ; quand le panel se réduit, le score le reflète au lieu de mimer une unanimité de façade. Nous avons vu le piège que tend ce domaine — le faux signal d'autorité, ce « six IA sont d'accord » qui rassure à tort quand deux seulement ont parlé — et nous avons choisi de le désamorcer plutôt que d'en profiter. Un chiffre n'a de valeur que s'il dit la vérité sur ce qu'il mesure.

Nous ne prétendons pas avoir inventé le consensus multi-IA. Ce serait faux, et tu l'as compris en lisant cette histoire : l'idée appartient à Jacobs et Hinton, à Shazeer, à l'équipe du MIT et de DeepMind, à Hegazy, à Karpathy, à des centaines de chercheurs. Ce que nous revendiquons est plus modeste et plus utile : avoir été ceux qui l'ont enfin rendue réelle pour toi. Avoir pris une vérité scientifique vieille de trente ans, fraîchement validée par le monde entier, et l'avoir transformée en quelque chose que tu peux ouvrir, comprendre et utiliser en trente secondes, en confiance.

C'est l'aboutissement légitime d'un long mouvement, pas une rupture solitaire. Trente ans de science nous ont donné raison ; il ne tenait qu'à quelqu'un de tenir la promesse. Si une question te pèse aujourd'hui, tu sais désormais d'où vient l'idée — et où la trouver.