Nuestra historia

La idea que Satcove hace concreta no nació en 2026. Tiene treinta años. En 1991, en un artículo que se volvió una referencia — «Adaptive Mixtures of Local Experts» —, Robert Jacobs, Michael Jordan, Steven Nowlan y Geoffrey Hinton plantearon una pregunta que hoy resulta sorprendentemente actual: en lugar de confiar una tarea a una única red neuronal monolítica, ¿y si varias subredes especializadas colaboraran, cada una buena en su terreno, arbitradas por un mecanismo que decide en quién confiar según la pregunta?

Fue una ruptura conceptual. Hasta entonces la intuición dominante era construir un único modelo, lo más grande y completo posible, capaz de saberlo todo. Los autores mostraron lo contrario: dividir el problema entre expertos distintos y luego combinar sus opiniones produce mejores resultados y un aprendizaje más estable. La fuerza ya no venía del tamaño de un solo cerebro, sino de la cooperación entre varios.

La semilla quedó dormida durante años, por falta de potencia de cálculo para explotarla a gran escala. Hubo que esperar a 2017 para que resurgiera con fuerza. Noam Shazeer y sus colegas de Google publicaron el trabajo sobre el «Sparse Mixture of Experts»: una arquitectura que, para cada petición, activa solo una fracción de una red gigantesca — los pocos expertos más pertinentes. Se obtienen así modelos de una capacidad inédita sin pagar ese coste en cada cálculo. La idea de 1991 por fin se vuelve industrial.

En 2022 el gran público recoge sus frutos sin siquiera saberlo. Mistral populariza el enfoque con Mixtral 8x7B, un modelo donde ocho expertos se reparten el trabajo, dos de ellos solicitados por cada token producido. La «mezcla de expertos» pasa del laboratorio al producto; se convierte en uno de los secretos de fabricación de las IA modernas más capaces.

Ese éxito tiene una consecuencia a menudo mal entendida: casi todas las IA que usamos hoy ya se apoyan, internamente, en una forma de colaboración entre expertos. La industria entera ha zanjado la vieja pregunta de 1991 — sí, la cooperación vence al cerebro único. Pero la zanjó a puerta cerrada, dentro de cada modelo, donde los expertos comparten la misma partida de nacimiento, los mismos datos de entrenamiento y, fatalmente, las mismas certezas erróneas. Allí el desacuerdo está domesticado, nunca es frontal.

Dicho de otro modo: desde 1991 la ciencia sabe que un solo punto de vista se equivoca y que confrontar varias inteligencias produce mejores respuestas. Es un hecho asentado, no una moda. Lo que aún faltaba no era la idea del consenso. Era hacerlo jugar ya no entre las piezas de una misma máquina, sino entre IA realmente distintas, creadas por equipos distintos, capaces de contradecirse de verdad. Ese paso, nadie lo había dado todavía para el gran público.

Una buena idea solo vale lo que resiste a la medición. Y eso es lo que cambió entre 2023 y 2026: el consenso multi-IA pasó de intuición seductora a resultado demostrado, reproducido y cuantificado.

El momento fundacional es un artículo de mayo de 2023 firmado por Yilun Du, Shuang Li, Antonio Torralba, Joshua Tenenbaum e Igor Mordatch, del MIT y Google DeepMind: «Improving Factuality and Reasoning in Language Models through Multiagent Debate». El método es nítido. Se plantea una pregunta a varias instancias de IA; cada una responde; luego se les dan a leer las respuestas de las demás y se les pide revisar la suya; se repite a lo largo de varias rondas. El resultado es claro: al final del debate, las respuestas son más factuales y el razonamiento más sólido que con una sola IA. El artículo será aceptado en ICML 2024, una de las conferencias más exigentes del campo — un sello de seriedad científica.

Ese trabajo también sacó a la luz sutilezas valiosas para quien quiere hacer bien las cosas. Hacer debatir copias idénticas del mismo modelo ayuda menos que confrontar puntos de vista realmente distintos: un cerebro que se relee a sí mismo sigue preso de sus propios puntos ciegos. Y la manera en que las IA intercambian sus argumentos importa: una comunicación estructurada, donde cada una lee de verdad a la otra antes de responder, vence a una mera crítica hecha en paralelo sin diálogo.

En 2024, Kamal Hegazy, investigador afiliado a Mila, remacha el clavo con «Diversity of Thought». Su conclusión es directa y de peso: hacer deliberar modelos distintos vence a multiplicar instancias del mismo modelo. La diversidad de entrenamiento — IA que no han visto el mundo a través de los mismos datos — pesa más que la diversidad de prompt. Es exactamente la frontera que la «mezcla de expertos» intramodelo no podía cruzar: para ganar hacen falta inteligencias que no se parezcan.

Ese resultado desplaza el centro de gravedad del problema: la cuestión ya no es solo hacer debatir, sino hacer debatir inteligencias bastante disímiles para que la confrontación enseñe algo de verdad. Dos modelos criados con corpus distintos no se equivocan en los mismos lugares; donde uno resbala, el otro a menudo se mantiene firme. Es esa complementariedad de los puntos ciegos — y no un voto más — la que da valor al panel. Apilar clones tranquiliza; cruzar miradas corrige.

Luego llegan las cifras que ya no dejan lugar a la duda. En abril de 2026, el estudio «Council Mode» pone números a la ganancia. En HaluEval, un banco de pruebas diseñado para cazar alucinaciones, el modo consejo las reduce en un 35,9 %. En TruthfulQA, que mide la propensión de un modelo a decir la verdad en vez de repetir falsedades extendidas, el consenso gana 7,8 puntos respecto al mejor modelo individual. No respecto a un modelo medio o débil: respecto al mejor, tomado solo.

El mensaje acumulado de estos trabajos es inequívoco. Donde antes se enfrentaba la intuición al escepticismo, hoy disponemos de un haz de pruebas convergentes, firmadas por las mejores instituciones, publicadas en las mejores conferencias. Varias IA que se confrontan alucinan menos y razonan mejor que una sola IA, por brillante que sea. Ya no es una opinión sobre el futuro; es un hecho del presente. Quedaba una pregunta, y no era científica: ¿quién sacaría esta verdad de los laboratorios para ponerla en manos de gente corriente, en el momento preciso en que la necesita?

Un descubrimiento puede quedar confidencial durante años, conocido solo por los investigadores. A veces hace falta un detonante cultural para que una categoría entera se asiente en la mente del gran público. Para el consenso multi-IA, ese detonante tiene fecha: 22 de noviembre de 2025.

Ese día, Andrej Karpathy publicó en GitHub un proyecto llamado «LLM Council». Karpathy no es un desarrollador anónimo: figura mayor de la IA contemporánea, paso por OpenAI, del que fue miembro fundador, y luego director de inteligencia artificial en Tesla, es una de las voces más escuchadas del campo. Y cuenta haber programado este «consejo de modelos» en un solo fin de semana, casi por el placer del experimento.

La arquitectura que propone es elegante y se despliega en tres tiempos. Primero, varios grandes modelos reciben la misma pregunta y responden en paralelo, independientes unos de otros. Luego — y este es el toque más fino — se les someten las respuestas de los demás para evaluarlas, pero de forma anonimizada: ninguna IA sabe qué respuesta viene de qué modelo. Esa anonimización busca neutralizar el sesgo de autoridad, ese reflejo de juzgar una respuesta mejor solo porque lleva la etiqueta de un modelo de renombre. Por último, un «Chairman», un modelo presidente situado fuera del panel, lee el conjunto y redacta la síntesis final.

El repositorio se vuelve viral en horas. Miles de desarrolladores lo clonan, lo comentan, lo trastean. La razón del entusiasmo no es solo técnica: es una señal. Cuando alguien de ese calibre se molesta en programar públicamente esta idea y la comunidad la adopta de inmediato, el mundo tecnológico valida de golpe la categoría entera. El mensaje implícito es claro: interrogar a una sola IA ya es pasado; el futuro consiste en hacerlas deliberar.

Más allá del entusiasmo, en pocos días el proyecto fijó un vocabulario y unas buenas prácticas que toda la categoría adoptó casi de inmediato: la respuesta en paralelo para preservar la independencia de las opiniones, la evaluación a ciegas para neutralizar el prestigio de las marcas, la síntesis confiada a un árbitro distinto del panel. Una idea hasta entonces dispersa en artículos se volvió, de la noche a la mañana, un patrón de diseño compartido — un lenguaje común que cualquiera podía retomar y discutir.

Pero Karpathy hace además una observación que, lejos de debilitar la idea, muestra su madurez — y traza la hoja de ruta de lo que queda por resolver. Nota que los modelos se muestran «sorprendentemente dispuestos» a juzgar la respuesta de un competidor superior a la suya. Esa complacencia entre IA, esa forma de adulación en que cada una se borra demasiado pronto, es un problema abierto: un panel solo vale si sus miembros defienden con honestidad su posición en vez de alinearse por cortesía. Reconocer ese defecto es admitir que el consenso multi-IA no es una receta mágica sino una disciplina exigente, que pide ingeniería, salvaguardas y honestidad.

En la primavera de 2026, hagamos balance con honestidad. La investigación es prolífica: más de cien artículos académicos exploran el debate y el consenso entre modelos. El mercado se agita: se cuentan una decena de productos comerciales que reivindican alguna forma de multi-IA. El código abierto abunda: repositorios, plantillas e integraciones para desarrolladores se multiplican. Sobre el papel, la categoría parece saturada.

Y sin embargo, la observación más importante es la de una ausencia. Ningún producto conocido de este vertical ha despegado de verdad: ninguno supera, que sepamos, los cien mil usuarios activos, ninguno ha levantado más de cincuenta millones de dólares en este nicho puro. La prueba científica estaba hecha, la validación cultural lograda — pero nadie había transformado todo eso en un producto que la gente corriente adopte de verdad, a diario.

La razón de ese vacío reside en un malentendido sobre el destinatario. Los investigadores tenían sus artículos, escritos para sus pares. Karpathy había ofrecido un repositorio magnífico — para ingenieros, capaces de manejar claves de API, una línea de comandos y algo de configuración. Pero la persona realmente afectada por la fiabilidad de una respuesta no es ni investigadora ni ingeniera. Es alguien ante una decisión que le compromete: un resultado de análisis médico que entender, una cláusula de contrato que descifrar, un dilema financiero, una decisión de vida. Esa persona no tenía ni una app sencilla, ni un veredicto claro, ni la menor garantía de que su pregunta más íntima no se usara en otra parte.

Porque los obstáculos por salvar no son solo de superficie. Hacer deliberar a seis IA cuesta caro: se multiplican los tokens, y por tanto la factura. Lleva tiempo: la latencia de un panel supera a la de un solo modelo. Crea una dependencia de los proveedores: un producto llamado OpenClaw desapareció en un solo día de abril de 2026, cuando Anthropic cortó el acceso del que dependía por completo. Y existe una trampa aún más insidiosa: la falsa señal de autoridad. Oír que «seis IA están de acuerdo» puede tranquilizar sin razón si, en realidad, solo dos respondieron, o si todas comparten la misma fuente errónea. Un consenso mal presentado miente por omisión.

Ese era el paisaje que teníamos ante los ojos. De un lado, treinta años de ciencia que dicen lo mismo: no confíes en una sola opinión. Del otro, un mundo tecnológico que acababa, en pocas semanas, de asentir al unísono. Y en medio, una falta evidente: ningún objeto real, fiable, móvil, respetuoso con la privacidad, para llevar esta idea hasta la mano de quien la necesita, en el momento en que la necesita.

Es exactamente en ese vacío donde se concibió Satcove. No para reinventar una rueda que la investigación ya había tallado, sino para resolver los problemas que nadie había querido afrontar de frente: el coste, la latencia, la dependencia de los proveedores, la honestidad de la señal y, sobre todo, la distancia entre una verdad de laboratorio y una decisión de vida. Llenar ese vacío no tenía nada de evidente: había que aceptar industrializar lo que otros dejaban en prototipo, y cargar en solitario con restricciones que la investigación podía ignorar. La ciencia llevaba treinta años teniendo razón; el mundo acababa de reconocerlo; faltaba alguien para hacerlo real, robusto y accesible. Esa es nuestra razón de ser.

Satcove es la forma acabada de esta historia de treinta años, reducida a un gesto simple. Planteas una pregunta. Seis de las mejores inteligencias artificiales del mundo responden en paralelo y luego se confrontan: leen las respuestas de las demás, defienden o revisan su posición y hacen aparecer sus desacuerdos en vez de ocultarlos. Al final, recibes un veredicto sintetizado — claro, legible, accionable — acompañado de lo que de verdad importa: la medida de su acuerdo y el mapa de sus divergencias.

Hicimos tres elecciones que nadie más combina, y es esa combinación, más que cualquier elemento aislado, la que define a Satcove. La primera es la app iOS nativa. No una web consultada a las prisas desde una pestaña del navegador, sino una aplicación de verdad pensada para el teléfono que siempre llevas encima — porque una decisión importante rara vez aparece cuando estás sentado ante un ordenador, y una segunda opinión solo vale si está disponible al instante.

La segunda elección es Europa. El alojamiento y los datos permanecen en Europa, bajo el régimen de protección más exigente que existe. Nada de lo que confías se filtra, nada sirve para entrenar a nadie, nada se revende. Para las preguntas que justamente justifican cruzar varias opiniones — la salud, el dinero, el derecho, lo íntimo —, esa confidencialidad no es una opción de marketing: es la condición para atreverse a plantear la pregunta de verdad, esa que jamás escribirías en un servicio que se alimenta de tus datos. Nuestro Privacy Shield anonimiza la información personal antes incluso de que la vea cualquier IA.

La tercera elección es la honestidad, y quizá sea la más importante. Satcove nunca te servirá un falso «todos están de acuerdo». La app te muestra cuántas IA respondieron de verdad y dónde, exactamente, divergen. Si el acuerdo es fuerte, lo sabes y puedes avanzar. Si es débil, también lo sabes: ese desacuerdo no es un defecto del producto, es información — la señal de que hay que profundizar, o hablar con un profesional. Preferimos una verdad incómoda a una certeza fabricada. Satcove te ayuda a decidir; no decide por ti, y no reemplaza ni a un médico, ni a un abogado, ni a un asesor.

Esa exigencia de honestidad recorre cada detalle. Cuando un modelo no está disponible, lo decimos en vez de llenar el silencio; cuando el panel se reduce, la puntuación lo refleja en vez de imitar una unanimidad de fachada. Vimos la trampa que tiende este campo — la falsa señal de autoridad, ese «seis IA están de acuerdo» que tranquiliza sin razón cuando solo dos han hablado — y elegimos desactivarla en vez de aprovecharla. Una cifra solo vale si dice la verdad sobre lo que mide.

No pretendemos haber inventado el consenso multi-IA. Sería falso, y lo has entendido al leer esta historia: la idea pertenece a Jacobs y Hinton, a Shazeer, al equipo del MIT y de DeepMind, a Hegazy, a Karpathy, a cientos de investigadores. Lo que reivindicamos es más modesto y más útil: haber sido quienes por fin la hicieron real para ti. Haber tomado una verdad científica de treinta años, recién validada por el mundo entero, y haberla convertido en algo que puedes abrir, entender y usar en treinta segundos, con confianza.

Es la culminación legítima de un largo movimiento, no una ruptura solitaria. Treinta años de ciencia nos dieron la razón; solo faltaba que alguien cumpliera la promesa. Si una pregunta te inquieta hoy, ya sabes de dónde viene la idea — y dónde encontrarla.