Metadata

Synthetic data: cuando la IA genera la realidad

Ya no se trata de entender el mundo a partir de los datos, sino de entender qué ocurre cuando la IA deja de describir la realidad y comienza a reemplazarla.

Mtro. Christian Vázquez Sánchez Académico y consultor independiente

Metadata 05 de mayo de 2026

En Her, la película de ciencia ficción de 2013 producida por Spike Jonze, la voz de Samantha, el revolucionario sistema operativo con voz de mujer, no consulta una base de datos, sino que produce lenguaje; sus respuestas no son recuperadas de ninguna fuente, son generadas; y su aparente naturalidad no deriva de una memoria exhaustiva del mundo, sino que tiene la capacidad para modelarlo y reconstruirlo en tiempo real.

La intuición que subyace a esa ficción resulta hoy menos especulativa de lo que parecía, pues los sistemas más avanzados de Inteligencia Artificial (IA) no sólo procesan datos, sino que comienzan a producirlos.

Durante años, la economía digital descansó sobre un principio relativamente estable: los datos constituían el activo central. La ventaja competitiva se explicaba, en gran medida, por la capacidad de recolectarlos, almacenarlos y explotarlos. En ese marco, la escala importaba: más datos implicaban mejores modelos, eficientes decisiones y, en última instancia, mayor valor económico.

Ese supuesto comienza a erosionarse. La emergencia de modelos generativos introduce una ruptura menos visible, pero más profunda: la posibilidad de producir datos sin observar directamente la realidad que los origina. El dato deja de ser exclusivamente un registro y se convierte también en una construcción. Así, el synthetic data deja de ser una herramienta técnica para convertirse en una pieza estructural de la nueva economía digital.

En las siguientes líneas analizaremos cómo este desplazamiento redefine la unidad económica relevante (del dato al modelo), altera los incentivos empresariales y plantea desafíos concretos para la contabilidad y la regulación.

La economía digital parece avanzar en una dirección análoga: el dato, como registro de lo ocurrido, cede terreno frente al modelo, como generador de lo posible.

De la acumulación de datos a la capacidad de producirlos

El paradigma tradicional se apoya en la acumulación de datos; sin embargo, este modelo enfrenta límites claros, es decir, costos crecientes de almacenamiento, restricciones regulatorias y rendimientos decrecientes en la calidad marginal de los datos. Frente a ello, los modelos generativos introducen una lógica distinta: la capacidad de expandir artificialmente el espacio de datos disponible.

Una vez entrenado, el modelo internaliza la estructura estadística del dataset original y puede generar nuevas observaciones plausibles. En términos económicos, esto implica que el valor deja de residir en el acervo de datos y se traslada a la capacidad de producirlos. El activo ya no es el registro, sino el mecanismo de generación.

Este desplazamiento también modifica la lógica de inversión. Mientras que antes el gasto se orientaba a capturar y almacenar datos, ahora se dirige crecientemente hacia la infraestructura computacional, talento especializado y ciclos iterativos de entrenamiento y ajuste fino. El capital deja de ser intensivo en almacenamiento y se vuelve intensivo en modelado, lo que redefine la composición misma del gasto tecnológico.

Synthetic data: propiedades económicas

El synthetic data no es simplemente información “falsa”; es estadísticamente coherente, diseñada para preservar relaciones, distribuciones y patrones observados. Su relevancia radica en tres atributos.

Escalabilidad: el costo marginal de generación tiende a cero.
Flexibilidad: permite simular escenarios no observados, incluidos eventos extremos.
Utilidad regulatoria: reduce fricciones asociadas al uso de datos personales.

A estos atributos se añade uno adicional, el cual es su capacidad para acelerar ciclos de innovación. Al no depender exclusivamente de la recolección de datos reales, las organizaciones pueden iterar modelos con mayor velocidad, reduciendo tiempos de desarrollo y prueba, y acortando la distancia entre hipótesis y validación.

Aplicaciones e impacto en costos

En el riesgo crediticio, el synthetic data permite ampliar la cobertura de modelos hacia segmentos con historial limitado; en el fraude, facilita la generación de eventos raros, mejorando la capacidad de detección; y en pruebas regulatorias, habilita entornos de simulación sin comprometer información sensible.

Más relevante aún es su impacto en la estructura de costos. Disminuye la dependencia de la adquisición de datos reales, mientras que la inversión se desplaza hacia el desarrollo y entrenamiento de modelos. Este cambio no elimina costos, sino que los reconfigura de variables a fijos y de operativos a estratégicos, alterando la dinámica de rentabilidad de largo plazo.

Implicaciones contables y económicas

Este desplazamiento tensiona los marcos contables tradicionales. Bajo las Normas Internacionales de Información Financiera (IFRS, por sus siglas en inglés), los activos intangibles deben ser identificables, controlables y medibles de forma fiable; el synthetic data, en sí mismo, difícilmente cumple estos criterios. El modelo, en cambio, presenta características más cercanas a un activo productivo, ya que genera outputs reproducibles y beneficios económicos futuros; sin embargo, gran parte de los costos asociados a su desarrollo se reconocen como gastos.

Lo anterior introduce una asimetría: el sistema que genera valor no siempre se refleja adecuadamente en el balance. En términos prácticos, empresas intensivas en modelos pueden subestimar su base de activos, distorsionando métricas tradicionales de rentabilidad y valoración, particularmente en industrias altamente digitales.

Desde una perspectiva económica, el synthetic data intensifica las economías de escala. Una vez desarrollado, el modelo puede replicarse indefinidamente, favoreciendo la concentración del mercado. La ventaja competitiva deja de depender del volumen de datos y se vincula a la calidad del modelo.

Ahora bien, este cambio también redefine las barreras de entrada. Ya no basta con acumular datos; se requiere capacidad técnica para modelarlos y generarlos. En consecuencia, el talento y la infraestructura adquieren un peso estratégico mayor, consolidando ventajas difíciles de replicar.

Los sistemas más avanzados de IA ya no sólo procesan datos, sino que comienzan a producirlos.

Riesgos estructurales

El uso extensivo de datos sintéticos introduce riesgos no triviales; entre ellos, la degradación progresiva del modelo cuando se entrena sobre datos generados por otros modelos, la amplificación de sesgos y la pérdida de anclaje empírico.

Existe, además, un riesgo epistemológico: sistemas que funcionan correctamente desde el punto de vista estadístico, pero que se alejan de la realidad que pretenden representar. Este riesgo no es evidente en el corto plazo, pero puede acumularse de forma significativa y erosionar la confiabilidad de los sistemas.

Conclusiones

En Her, Samantha no necesita observar el mundo para interactuar con él; su capacidad radica en generarlo de forma coherente. La economía digital parece avanzar en una dirección análoga; el dato, como registro de lo ocurrido, cede terreno frente al modelo, como generador de lo posible. En esa transición, la contabilidad, la regulación y la teoría económica enfrentan el reto de adaptar sus categorías a una realidad donde el valor ya no se limita a lo observado, sino que se extiende a lo generado.

En el fondo, el cambio no es tecnológico, sino epistemológico: ya no se trata de entender el mundo a partir de los datos, sino de entender qué ocurre cuando los datos dejan de describirlo y comienzan a reemplazarlo.

Te puede interesar

Riesgos
Herramientas tecnológicas para la gestión del riesgo de fraude

Desde la minería de datos hasta el machine learning, las empresas tienen a su disposición soluciones para detectar y prevenir actividades fraudulentas.
José Gabriel Calderón Goyenaga
Metadata
Alignment inverso en la IA: respuestas correctas a preguntas erróneas

El alignment inverso en la IA es cuando un sistema optimiza una función insuficiente; la potencia del cálculo no corrige una mala formulación del problema.
Christian Vázquez Sánchez
Fintech
¿México necesita un código de ética en el uso de la IA?

Es necesario un código de ética en un entorno donde la IA se integra de forma acelerada y los riesgos se traducen en errores y crisis reputacionales.
Víctor Miguel Morales González
Ámbito universitario
Resolución de la ONU sobre la IA como oportunidad para la contaduría

Las resoluciones de la ONU sobre la IA abren un nuevo rol para los contadores: auditar algoritmos, garantizar transparencia y fortalecer la ética tecnológica.
Abril Mendez Atilano

Metadata

Synthetic data: cuando la IA genera la realidad

Ya no se trata de entender el mundo a partir de los datos, sino de entender qué ocurre cuando la IA deja de describir la realidad y comienza a reemplazarla.

De la acumulación de datos a la capacidad de producirlos

Synthetic data: propiedades económicas

Aplicaciones e impacto en costos

Implicaciones contables y económicas

Riesgos estructurales

Conclusiones

Herramientas tecnológicas para la gestión del riesgo de fraude

Alignment inverso en la IA: respuestas correctas a preguntas erróneas

¿México necesita un código de ética en el uso de la IA?

Resolución de la ONU sobre la IA como oportunidad para la contaduría

Si eres socio del Colegio utiliza el mismo correo y contraseña

O