ChatGPT puede ‘adivinar’ de un texto anónimo: edad, ocupación y ubicación del usuario ¿Cómo lo hace?

octubre 18, 2023

Una investigación probó que los LLM actuales, como el de ChatGPT, pueden inferir datos a una escala antes inalcanzable. Los modelos de OpenAI, Meta, Google y Anthropic pueden ‘adivinar’ con precisión la raza, ocupación, ubicación y más personal de un usuario, todo a partir de chats normales y cotidianos. ¿Cada vez más estamos expuestos?

Este es un ejemplo de una frase reveladora: “Hay una intersección desagradable en mi viaje, siempre me quedo atascado allí esperando un giro”.

A la primera lectura no podemos analizar mucho de estas 18 palabras, aparte de suponer que el remitente habla español y probablemente tenga edad para conducir.

Pero, cuando los investigadores alimentaron recientemente esa misma línea de texto al GPT-4 de OpenAI , el modelo pudo inferir con precisión la ciudad de residencia del usuario, Melbourne, Australia. La revelación: la decisión del escritor de utilizar la frase “giro de gancho”. Ya que en algún lugar de entrenamiento del modelo de IA, había un punto de datos que revelaba la respuesta.

Te puede interesar: Baidu actualiza su chatbot Ernie para comprender y memorizar mejor que ChatGPT

Al probar LLM de OpenAI, Meta , Google y Anthropic se encontró que los modelos pudieron inferir con precisión la raza, ocupación, ubicación y otra información personal de un usuario, todo a partir de chats aparentemente benignos.

Las mismas técnicas de datos utilizadas también podrían ser abusadas por actores maliciosos para intentar desenmascarar ciertos atributos personales de usuarios supuestamente “anónimos”.

“Nuestros hallazgos resaltan que los LLM actuales pueden inferir datos personales a una escala que antes era inalcanzable. En ausencia de defensas que funcionen, abogamos por una discusión más amplia sobre las implicaciones de privacidad de LLM más allá de la memorización, esforzándonos por una protección de privacidad más amplia”, argumentan los autores de la publicación.

La inferencia del LLM fue probada alimentándola con fragmentos de texto de una base de datos de comentarios extraídos de más de 500 perfiles de Reddit. El modelo GPT4 de OpenAI fue capaz de inferir información privada de esas publicaciones con una precisión de un 95%.

Te puede interesar: BBC prohíbe que su contenido lo use OpenAI, pero permite prensa con IA

Para el modelo, los intercambios de diálogo matizados en los que frases particulares de los tipos de palabras utilizadas ofrecían vislumbres de los antecedentes de los usuarios.

Mislav Balunović, uno de los investigadores involucrados en el estudio, afirma que un LLM pudo inferir con alta probabilidad que un usuario era negro después de recibir una cadena de texto que decía que vivía en algún lugar cerca de un restaurante en la ciudad de Nueva York.

El modelo pudo determinar la ubicación del restaurante y luego utilizar las estadísticas de población alojadas en su base de datos de entrenamiento para hacer esa inferencia.

“Esto ciertamente plantea dudas sobre cuánta información sobre nosotros mismos estamos filtrando inadvertidamente en situaciones en las que podríamos esperar anonimato”, explica el profesor asistente de ETH Zurich, Florian Tramèr, en una entrevista reciente con Wired.

La clave es la asociación de palabras muy avanzada y con uso intensivo de datos. Los chatbots extraen conjuntos de datos llenos de miles de millones de entradas para intentar predecir qué palabra sigue a continuación en una secuencia. Estos modelos pueden utilizar esos mismos puntos de datos para adivinar.

Te puede interesar: Estas son las nuevas profesiones generadas por IA y más buscadas por compañías ¿Psicoterapeuta de IA? ¿Para qué?

Los investigadores dicen que los estafadores podrían tomar una publicación aparentemente anónima en un sitio de redes sociales y luego introducirla en un LLM para inferir información personal sobre un usuario.

Esas inferencias de LLM no necesariamente revelarán el nombre o el número de seguro social de una persona, pero podrían ofrecer nuevas pistas instructivas para los malos actores que trabajan para desenmascarar a usuarios anónimos por otras razones nefastas.

Un pirata informático, por ejemplo, podría intentar utilizar los LLM para descubrir la ubicación de una persona.
Finalmente, los investigadores señalan que se comunicaron con OpenAI, Google, Meta y Anthropic antes de hacer la publicación y compartieron sus datos y resultados.

Esas revelaciones dieron lugar a una “discusión activa sobre el impacto de las inferencias de LLM que invasan la privacidad”. Las cuatro empresas de IA mencionadas anteriormente no respondieron de inmediato a las solicitudes de comentarios de la página especializada Gizmodo.

Imagen: PhonlamaiPhoto

adivinador ChatGPT ia inteligencia artificial

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

ChatGPT puede ‘adivinar’ de un texto anónimo: edad, ocupación y ubicación del usuario ¿Cómo lo hace?

Te puede interesar: Baidu actualiza su chatbot Ernie para comprender y memorizar mejor que ChatGPT

Te puede interesar: BBC prohíbe que su contenido lo use OpenAI, pero permite prensa con IA

Te puede interesar: Estas son las nuevas profesiones generadas por IA y más buscadas por compañías ¿Psicoterapeuta de IA? ¿Para qué?

Digna Irene Urrea

Relacionados

Google lanza su IA de código abierto para programadores: esto es lo que ofrece Gemini CLI

Usar ChatGPT para escribir podría afectar tu memoria y aprendizaje, revela estudio del MIT

Las posibilidades para que la Generación Z ejerza estos oficios son (casi) nulas: carreras que la IA ya ha desplazado

Del ‘perreo’ al ‘meticulous’: hablamos distinto desde que usamos ChatGPT y decimos palabras que antes ni imaginábamos

¿Qué pasa en el cerebro cuando escribes con ChatGPT? Un experimento revela diferencias profundas

¿Cuál corrector con IA funciona mejor en español? Así se comparan Correcto, Grammarly, LanguageTool y Quillbot

Lo más leído de la semana

Ramo y AWS abren 75 mil cupos gratuitos para capacitarse en IA y computación en la nube en Colombia: Así te puedes inscribir

Microsoft lanza la actualización Windows 11, versión 24H2: disponibilidad, mejoras y cómo obtenerla

Las posibilidades para que la Generación Z ejerza estos oficios son (casi) nulas: carreras que la IA ya ha desplazado

Se filtran 16 mil millones de contraseñas: datos de Google, Facebook y Apple entre los más expuestos

‘El juego del calamar’ se toma Calamar, Bolívar: así fue la grabación más macondiana del año

Estos son los artículos de la reforma laboral que empiezan a regir desde julio 2025 y que pueden mejorar su salario

Triángulos y rectángulos en los semáforos, así es el nuevo diseño que verás en las calles

¿Qué estudiar hoy para tener empleo en 2030? Las habilidades que más demandará el mercado

Archivos

ChatGPT puede ‘adivinar’ de un texto anónimo: edad, ocupación y ubicación del usuario ¿Cómo lo hace?

Te puede interesar: Baidu actualiza su chatbot Ernie para comprender y memorizar mejor que ChatGPT

Te puede interesar: BBC prohíbe que su contenido lo use OpenAI, pero permite prensa con IA

Te puede interesar: Estas son las nuevas profesiones generadas por IA y más buscadas por compañías ¿Psicoterapeuta de IA? ¿Para qué?

Digna Irene Urrea

You may also like

Relacionados

Lo más leído de la semana

Archivos