Metadata

Fenómeno MAD: cuando la IA se come a sí misma

El entrenamiento de modelos de IA con contenido generado artificialmente lleva a una degradación de su rendimiento, con más sesgos y menos originalidad.

Mtro. Christian Vázquez Sánchez Académico y consultor independiente

Metadata 14 de julio de 2025

En la película S1m0ne, de Andrew Niccol en 2022, Viktor Taransky, un excéntrico y frustrado director de cine, crea a Simone (acrónimo de Simulation One), una actriz completamente generada por computadora; su perfección y carisma virtual cautivan al público, eclipsando por completo a los intérpretes reales. Lo que comienza como una solución técnica se convierte en una dependencia estructural: el sistema mediático prefiere lo sintético, controlado e idealizado, y olvida lo humano. La audiencia y la industria se sienten más cómodas con una ilusión coherente que con la complejidad real de las personas.

La generación masiva de contenido sintético por Inteligencia Artificial (IA) está saturando Internet y transformando (de forma radical) el modelo económico y cultural de la web. Una creciente proporción de contenido en línea ya no proviene de autor humano alguno, sino de otros algoritmos, lo que supone una degradación de los modelos de entrenamiento de la IA y la aparente extinción de los contenidos creados por seres humanos. En las siguientes líneas exploraremos los posibles impactos y riesgos que trae consigo este fenómeno.

El autoconsumo y el MAD

Internet fue concebido como una plataforma descentralizada de expresión y conocimiento. El contenido original (ensayos, investigaciones, literatura, opinión y cultura) creció exponencialmente gracias a creadores individuales y medios. Hasta hace pocos años, la cadena era clara: un autor humano producía contenido, un usuario la consumía, crecían las visitas, el intercambio y, finalmente, se daba la monetización.

Con la llegada de la IA generativa, la cadena se volvió circular.
Los modelos como ChatGPT, LLaMA, Gemini o Claude se entrenan con datos provenientes de la web.
Se generan textos, imágenes, código y audio.
Ese contenido sintético se indexa en la web y puede ser rastreado y reentrenado por nuevos modelos.
Se reproduce contenido derivativo que, a su vez, se incorpora en futuros modelos, lo que trae como consecuencia la pérdida de variedad, originalidad y precisión.

Este fenómeno se conoce como Model Collapse, AI Autophagy o Model Autophagy Disorder (MAD).

El Model Collapse ocurre cuando un modelo de IA comienza a perder la capacidad de generar contenido original, preciso o diverso porque se está entrenando con datos que no vienen de humanos, sino de otros modelos de IA.

Al replicar y reescribir su propia historia, la IA corre el riesgo de generar una era dominada por narrativas recicladas, unipersonales y sin alma humana.

La autofagia de IA es una metáfora inspirada en la biología; en medicina, ocurre cuando una célula se “come a sí misma” para sobrevivir por falta de nutrientes externos. En el mundo de la IA, significa que los modelos se alimentan de sus propios productos, en lugar de seguir nutriéndose del mundo real. El resultado es un sistema cerrado que se va empobreciendo porque repite lo que ya se generó en lugar de incorporar nueva información, experiencias humanas, lenguaje vivo o datos verificables.

El MAD es un nombre más técnico y reciente para este fenómeno; se refiere al deterioro sistemático de los modelos de IA cuando sus datos de entrenamiento están contaminados por contenido sintético. Los síntomas del MAD son:

Reducción en la precisión de las respuestas, con sesgos y demás.
Pérdida de diversidad, es decir, muchas respuestas comienzan a parecerse demasiado entre sí.
Mayor incidencia de errores sutiles o alucinaciones (datos falsos que parecen reales).
Disminución de la capacidad de razonamiento contextual, es decir, no se considera el contexto.

Un modelo con MAD no necesariamente deja de funcionar, pero se vuelve cada vez menos útil, más sesgado y poco original.

Evidencia del colapso

Diversos estudios recientes han documentado con rigor cómo el entrenamiento de modelos de IA con contenido generado artificialmente (sin una base sólida de datos humanos) conduce a una degradación progresiva de su rendimiento.

Uno de los trabajos más citados es el estudio Self-Consuming Generative Models Go MAD, de Shumailov (2023), el cual analiza lo que sucede cuando un modelo es entrenado con sus propias salidas generadas o con contenido proveniente de otros modelos. Los autores demuestran que, al prescindir de datos reales, los modelos sufren una pérdida significativa tanto en precisión (calidad de las respuestas) como en recuperación (diversidad y riqueza conceptual).

Otro estudio clave, When AI Eats Itself: On the Caveats of AI Autophagy, aborda las consecuencias de la contaminación de los conjuntos de entrenamiento con contenido sintético. El equipo de investigación alerta sobre cómo esta práctica compromete la fiabilidad de nuevos modelos al distorsionar los patrones lingüísticos y cognitivos que deberían estar anclados al mundo real.

Asimismo, una síntesis de estudios publicados en arXiv y Rice University corrobora estos hallazgos con evidencia empírica. En pruebas sobre generación de imágenes, texto y audio, se observa un desempeño notablemente inferior en modelos entrenados con contenido artificial; estos tienden a replicar patrones repetitivos, perder fineza expresiva y manifestar errores semánticos que no se presentarían en entornos alimentados con datos genuinos.

En conjunto, estas investigaciones ponen de relieve un fenómeno cada vez más preocupante: la IA, al alimentarse de sí misma, pierde contacto con la complejidad, diversidad y riqueza del conocimiento humano.

Mucho contenido en línea ya no proviene de autor humano alguno, sino de otros algoritmos, lo que supone una degradación de los modelos de entrenamiento de la IA.

Los efectos en la web

El impacto del contenido generado por IA no es sólo técnico o teórico, pues se está sintiendo con fuerza en el ecosistema digital. Uno de los efectos más alarmantes es la caída significativa en el tráfico web hacia los productores de contenido original, sobre todo, medios de comunicación y plataformas educativas.

Según datos publicados por The Wall Street Journal, sitios como Business Insider han experimentado una pérdida de hasta 55% en tráfico orgánico entre abril de 2022 y abril de 2025. Esta tendencia se atribuye, en gran parte, a la aparición de respuestas generadas por IA directamente en los resultados de búsqueda, lo que reduce drásticamente la necesidad de que los usuarios visiten los sitios fuente.

Plataformas educativas y de divulgación científica también se han visto afectadas; World History Encyclopedia, por ejemplo, reportó una disminución de 25% en su tráfico tras la implementación de resúmenes automatizados por parte de Google Overviews. Este patrón se repite en medios de alto perfil como The Washington Post o HuffPost, donde las visitas cayeron hasta 50%, comprometiendo no sólo el modelo económico basado en la publicidad, sino también la sostenibilidad del periodismo profesional.

Otra manifestación clara del deterioro digital es el aumento explosivo del contenido automatizado de baja calidad, también denominado “spam sintético”. Plataformas colaborativas como Reddit y Stack Overflow se han visto obligadas a restringir o moderar el uso de respuestas generadas por IA por la proliferación de textos repetitivos, vagos o directamente incorrectos.

Conclusiones

La marea de contenido sintético representa un problema sistémico, es decir, la erosión silenciosa de la riqueza informativa cultural, cognitiva y económica. Al replicar y reescribir su propia historia, la IA corre el riesgo de generar una “era poscreativa” dominada por narrativas recicladas, unipersonales y sin alma humana. Las voces humanas (de periodistas, científicos y creadores) deben regresar al centro del ecosistema digital.

En este sentido, S1m0ne funciona como una alegoría profética. Cuando lo artificial desplaza a lo auténtico, no sólo se transforma el medio, sino también la percepción de lo verdadero. El riesgo no es únicamente estético, sino existencial: el reemplazo progresivo del alma humana por patrones predecibles generados por una máquina.

Te puede interesar

Ética y sostenibilidad
Retos y oportunidades de las donatarias hacia un futuro sostenible

Con presupuestos ajustados y equipos dedicados a la misión principal, que una donataria invierta en sostenibilidad parece una distracción costosa.
Cecilia Mora, Ivonne Canett Rivas
Metadata
Data centers para IA y la escasez de recursos naturales

La operación de los data centers requiere grandes volúmenes de energía y agua, lo que puede agravar crisis ambientales, así como generar tensiones sociales.
Christian Vázquez Sánchez
Metadata
Big Sleep y el renacimiento de la ciberseguridad

Big Sleep y otras herramientas de ciberseguridad inauguran una era en la que la IA no sólo detecta amenazas, sino que las desactiva antes de que nazcan.
Christian Vázquez Sánchez
Fintech
CURP biométrica: evolución y desafíos de la ciberseguridad

La CURP biométrica es una muestra de la evolución para mejorar la identificación, pero enfrenta desafíos de ciberseguridad, privacidad y protección de datos.
Víctor Miguel Morales González

Metadata

Fenómeno MAD: cuando la IA se come a sí misma

El entrenamiento de modelos de IA con contenido generado artificialmente lleva a una degradación de su rendimiento, con más sesgos y menos originalidad.

El autoconsumo y el MAD

Evidencia del colapso

Los efectos en la web

Conclusiones

Retos y oportunidades de las donatarias hacia un futuro sostenible

Data centers para IA y la escasez de recursos naturales

Big Sleep y el renacimiento de la ciberseguridad

CURP biométrica: evolución y desafíos de la ciberseguridad

Si eres socio del Colegio utiliza el mismo correo y contraseña

O