El precio de ser comprendido: IA y tus datos personales

TL;DR:

Las grandes empresas de IA usan tus conversaciones para entrenar sus modelos — con políticas de privacidad que nadie lee y opt-outs que pocos activan.
Que un LLM te conozca tiene beneficios reales y concretos, pero el precio en datos es subestimado y la narrativa corporativa oculta los riesgos reales.
La escalada futura — perfiles comerciales completos, vigilancia gubernamental, scoring automatizado — ya tiene precedentes documentados. No es ciencia ficción.

Hay una pregunta que nadie se hace cuando abre ChatGPT para consultar un síntoma médico, procesar un duelo o pedir consejo sobre una relación: ¿quién más va a leer esto?

La respuesta, enterrada en páginas de términos de servicio que nadie lee, es incómoda. OpenAI, por defecto, usa tus conversaciones para entrenar sus modelos. Meta admitió usar publicaciones públicas de Facebook e Instagram para entrenar Llama, y luego pausó temporalmente esa práctica tras la presión regulatoria europea. Microsoft usa datos de Bing, Copilot e interacciones publicitarias desidentificadas. Y Anthropic, la más transparente del lote, afirma que solo entrena con tus datos si das permiso explícito.

Esta es la realidad documentada de 2026. Y es apenas el principio de lo que viene.

La seducción de ser conocido

Antes de hablar de riesgos, hay que ser honesto: que un modelo de lenguaje te conozca tiene beneficios reales. No son inventados ni son marketing corporativo — son funcionalidades que ya cambian vidas concretas.

Un LLM con acceso a tu historial médico puede detectar interacciones entre medicamentos que ningún médico alcanzó a cruzar en una consulta de 15 minutos. Un asistente que sabe tu estilo de escritura puede redactar un email en tu nombre sin que el destinatario note diferencia alguna. Un tutor que conoce tus dificultades de aprendizaje puede explicarte el mismo concepto de cinco maneras distintas hasta que una finalmente encaje.

La personalización tiene valor tangible. Los LLMs con contexto rico funcionan exponencialmente mejor que los genéricos. Si un modelo sabe que tenés hipertensión, tres hijos, trabajás 12 horas por día y estás en proceso de divorcio, puede darte consejos mucho más útiles que cualquier búsqueda de Google. Si un asistente recuerda que ya intentaste una solución la semana pasada y no funcionó, no te la va a repetir. Si conoce tus preferencias de comunicación, va a adaptar su tono.

Los sistemas de memoria persistente que están desplegando estas plataformas — todavía opcionales, todavía limitados por regulaciones, todavía cautelosos después de varios lanzamientos que tuvieron que frenarse por alertas de privacidad — van exactamente en esa dirección. La promesa es un asistente que te conoce de verdad. Que recuerda. Que aprende. Que mejora con el tiempo.

En el ámbito de la salud mental, donde la consistencia del acompañante importa, esto tiene implicaciones que trascienden la conveniencia. En educación personalizada, en accesibilidad para personas con discapacidades, en soporte para adultos mayores — los casos de uso son reales y el valor es innegable.

La pregunta que hay que hacer no es si estos beneficios existen. Es: ¿a qué precio vienen?

Lo que las empresas hacen con tus datos (y lo que no dicen)

La narrativa corporativa estándar es tranquilizadora: "desidentificamos los datos", "los anonimizamos antes de usarlos", "solo los utilizamos para mejorar nuestros servicios". Y en muchos casos es parcialmente verdad. El problema está en lo que queda fuera del relato.

Hay hechos documentados que complican esa imagen prolija.

Marzo de 2023, el caso Redis de ChatGPT. Un error técnico en el sistema de caché Redis expuso los chats activos de usuarios reales. No solo el contenido de las conversaciones — también emails y los últimos cuatro dígitos de tarjetas de crédito de usuarios que habían completado procesos de pago. El incidente fue confirmado por la propia OpenAI. Afectó a un número limitado de usuarios, pero demostró algo concreto e irrefutable: el aislamiento de sesión en sistemas compartidos de IA es frágil. Un bug de infraestructura puede convertir conversaciones privadas en datos expuestos.

2024, Meta y la pausa forzada. Meta anunció que usaría datos públicos de usuarios de Facebook e Instagram — posts, fotos, interacciones — para entrenar sus modelos de IA generativa. Después de presión regulatoria en Europa, donde el RGPD da a los usuarios el derecho de objetar ese uso, Meta frenó temporalmente. En el resto del mundo, sin esa protección legal, la práctica continuó. No existe un mecanismo de opt-out global. Si sos usuario de Meta y vivís fuera de Europa, tus publicaciones públicas de la última década ya forman parte de algún modelo.

El problema de las integraciones de terceros. Las plataformas de LLMs permiten plugins y herramientas externas. Algunas de esas integraciones tienen acceso al contenido de tus conversaciones. Pueden capturar, procesar y almacenar esa información con políticas de privacidad propias, distintas a las del proveedor principal. La superficie de exposición es considerablemente mayor de lo que el usuario promedio percibe.

Y luego está el problema técnico más sutil: la reidentificación. Los LLMs pueden memorizar inadvertidamente fragmentos de sus datos de entrenamiento. Investigadores han documentado que es posible extraer información personal de estos modelos mediante técnicas específicas de data extraction. Incluso datos "anonimizados" pueden, en contexto suficiente, ser correlacionados con otras fuentes para identificar a un individuo. La anonimización no es un escudo absoluto — es una mitigación con límites.

Lo que las empresas tampoco publicitan activamente: los datos que generás no solo sirven para entrenar modelos. Alimentan la inteligencia de negocio de las compañías más valiosas del planeta. Aun sin vender datos directamente, la información genera valor. Microsoft reconoce que puede usar el historial de Copilot para personalizar anuncios si el usuario lo permite. "Si el usuario lo permite" es una frase que carga mucho peso — especialmente cuando la opción de permitir viene activada por defecto o está escondida en el quinto nivel de un menú de configuración.

Para más contexto sobre cómo estos sistemas pueden ser explotados desde afuera, vale la pena revisar los riesgos documentados en agentes de IA.

La regulación que llega tarde

El marco legal existe. El problema es que llega tarde, llega parcheado, y no llega a todos.

El RGPD europeo es la regulación más robusta del mundo en esta materia. Exige bases legales explícitas para procesar datos personales, transparencia real sobre su uso, y garantiza derechos concretos: acceso a los propios datos, supresión, oposición a tratamiento automatizado. En agosto de 2024 entró en vigor el Reglamento Europeo de Inteligencia Artificial, que clasifica sistemas de IA por nivel de riesgo y obliga a etiquetar contenido generado artificialmente. Es imperfecto — el debate sobre su adecuación al boom de IA generativa es legítimo — pero existe y tiene consecuencias reales. Meta lo probó en 2024.

La CCPA californiana da derechos similares a consumidores de ese estado. También, solo de ese estado.

En Argentina, la ley 25.326 de protección de datos personales data del año 2000. No contemplaba inteligencia artificial, LLMs, ni los smartphones que hoy llevamos en el bolsillo. Hay proyectos parlamentarios para modernizarla — inspirados en el RGPD — que incorporan conceptos como "derecho a la no discriminación algorítmica" y oposición a decisiones automatizadas. Hay novedades legislativas en proceso. Pero son proyectos. Debates. La protección real, hoy, es limitada.

El resultado es una asimetría radical: empresas con sede en Estados Unidos tienen acceso a datos de cientos de millones de usuarios en jurisdicciones sin regulación adecuada. El usuario en Argentina, en México, en la mayor parte de Latinoamérica y África, tiene un poder de negociación sobre sus propios datos cercano a cero. Puede leer las políticas de privacidad — nadie lo hace — o puede no usar el servicio. Esas son, en la práctica, las dos opciones.

Hacia dónde escala esto: el futuro que nadie está contando

Acá la nota se vuelve incómoda, porque lo que voy a describir no es ciencia ficción. Es extrapolación de tendencias documentadas, con precedentes que ya ocurrieron en otras industrias.

Perfiles persistentes y completos. Las memorias persistentes en LLMs todavía son opcionales y limitadas. Pero la dirección es inequívoca: un asistente que acumula años de conversaciones sobre tu salud, tus miedos, tus relaciones, tus finanzas, tus opiniones políticas. No como logs de texto — como un perfil psicológico y contextual de una precisión sin precedentes en la historia de la vigilancia comercial. Cambridge Analytica construyó perfiles de usuarios con datos de Facebook y los usó para intervenir en elecciones. Un LLM que te conoce durante años construye algo infinitamente más rico.

¿Qué pasa cuando esa empresa quiebra? ¿Cuando es adquirida por otra con distintos valores? Las políticas de privacidad cambian cuando cambia el dueño. Los datos de usuarios son activos contables en los balances de transacciones corporativas. Ya ocurrió con aplicaciones de salud vendidas a aseguradoras, con redes sociales adquiridas por conglomerados de medios, con plataformas de dating cuyos datos migraron a nuevos dueños. Ocurrirá con datos de IA. La pregunta no es si, sino cuándo y en qué escala.

El acceso gubernamental. Las empresas de tecnología estadounidenses operan bajo leyes que permiten a agencias de inteligencia solicitar datos de usuarios sin notificarles — bajo National Security Letters y órdenes FISA. El programa PRISM, revelado por Snowden en 2013, documentó cómo la NSA tenía acceso directo a datos de Google, Facebook, Microsoft y Apple. Nada estructural cambió desde entonces. Si los LLMs almacenan perfiles detallados de millones de usuarios, esos perfiles son — bajo ciertas circunstancias legales — accesibles.

Seguros, crédito y empleo. Las aseguradoras ya utilizan big data para segmentar riesgos con una precisión que sus clientes no imaginan. El paso siguiente es usar perfiles de IA — más ricos, más contextuales, más precisos — para determinar primas de seguro de vida, scoring crediticio, o evaluaciones de candidatos laborales. ¿Le darías un crédito a alguien cuyas conversaciones revelan problemas financieros crónicos? ¿Contratarías a alguien cuyo asistente muestra patrones de ansiedad severa? La lógica del scoring automatizado ya existe. Los datos de LLMs son el insumo ideal.

Sistemas de puntaje social. El sistema de crédito social chino es frecuentemente señalado como el caso extremo, el escenario distópico. Pero la lógica no le pertenece solo a China. El scoring crediticio, los perfiles de seguros, la moderación automatizada en plataformas — todo eso ya existe en occidente con distintos nombres. La diferencia entre un sistema de crédito social y un sistema de scoring basado en datos de IA es, principalmente, el grado de transparencia y el control institucional. No la lógica subyacente.

La escalada no requiere un gobierno autoritario ni un villano corporativo monolítico. Requiere incentivos económicos, ausencia de regulación efectiva, y el mismo proceso gradual de normalización que permitió que la publicidad personalizada por comportamiento pasara de ser escandalosa a ser invisible. Ya ocurrió una vez. Las condiciones para que ocurra de nuevo son mejores.

Lo que podemos hacer (sin ingenuidades)

Las recomendaciones existen y tienen sentido. Pero hay que ser honesto sobre sus límites: son medidas individuales en un problema estructural.

Para usuarios:

Activar el opt-out de entrenamiento donde esté disponible. En ChatGPT existe en el portal de privacidad — la mayoría no lo activa porque no sabe que existe. Usar chats temporales para conversaciones sensibles: no se guardan, no se usan para entrenamiento. No ingresar información realmente crítica — números de documentos, credenciales, datos médicos sensibles, información bancaria — en plataformas de IA comerciales. Para contextos de alta sensibilidad, considerar modelos que corren localmente, sin enviar datos a la nube.

Son pasos razonables. Pero la responsabilidad de la privacidad no debería recaer exclusivamente en el usuario, que enfrenta interfaces diseñadas para maximizar el compartir de datos, políticas redactadas para confundir, y opciones de control escondidas detrás de múltiples clics.

Para el debate colectivo:

Las soluciones individuales no alcanzan. El problema es estructural y requiere respuestas en esa escala. Regulación con dientes reales — no declaraciones de principios. Transparencia obligatoria sobre qué datos se usan, para qué, y durante cuánto tiempo. Mecanismos de opt-out genuinamente accesibles, no enterrados en configuraciones. Derecho al olvido computacional real: que borrar tus datos signifique que el modelo deje de saber lo que sabía de vos.

Europa señaló un camino. No es perfecto — pero estableció que los datos personales son un derecho, no un recurso. La pregunta es si el resto del mundo va a seguir ese camino antes o después de que los daños sean difíciles de revertir.

El historial de industrias similares — tabaco, redes sociales, farmacéutica — sugiere que la regulación efectiva llega después de los daños documentados, no antes.

La pregunta que sí hay que hacerse

Volvamos al principio. Cuando abrís un chat de IA para procesar algo personal, estás haciendo una elección implícita: utilidad inmediata contra control a largo plazo sobre esa información. Es una elección legítima. A veces el beneficio justifica el costo.

El problema es que hoy esa elección se toma sin información completa. Sin entender realmente cuánto tiempo se retienen los datos, quién más puede acceder, qué pasa si la empresa cambia de dueño, cómo se usa esa información para entrenar modelos que luego serán usados por millones. Y en un contexto donde las reglas del juego pueden cambiar unilateralmente cuando la empresa lo decida, con un simple cambio en los términos de servicio que va a tu casilla de email con un asunto que vas a ignorar.

La IA que te conoce puede ser una herramienta extraordinariamente útil. También puede ser el archivo más detallado que jamás se haya construido sobre vos, administrado por una corporación con incentivos propios y con una longevidad e influencia que ningún individuo puede prever.

Entender esa tensión no es paranoia. Es el mínimo de consciencia necesario para tomar decisiones informadas en el mundo en el que vivimos.

Tincho Fuentes — Periodista tecnológico e investigador 🚀