AI puede ahora desenmascarar usuarios anónimos de Internet, nuevos hallazgos de estudio

Cuerpo

Parece que AI ahora puede desenmascarar cualquier cuenta anónima en Internet. Eso es según un nuevo estudio de Simon Lermen (MATS), Daniel Paleka (ETH Zurich), Joshua Swanson (ETH Zurich), Michael Aerni (ETH Zurich), Nicholas Carlini (Antrópico), y Florian Tramèr (ETH Zurich), publicado en arXiv.

En el periódico, “Large-Scale Online Deanonymization with LLMs”, los investigadores muestran que los modelos de lenguajes grandes modernos (LLM) pueden volver a identificar a las personas detrás de cuentas en línea pseudonymous a una escala y precisión que superan mucho las técnicas anteriores.

La contribución principal es un oleoducto automatizado de deanonimato impulsado por las LLM, según elnuevo estudio. En lugar de depender de conjuntos de datos estructurados o de características diseñadas a mano, como ataques anteriores en el conjunto de datos del Premio Netflix, el sistema funciona directamente en texto crudo y no estructurado.

Dados mensajes, comentarios o transcripciones de entrevista escritas bajo un seudónimo, el oleoducto extrae señales relevantes para la identidad, busca probables partidos usando incrustaciones semánticas, y luego utiliza razonamientos de alto nivel para verificar a los candidatos más prometedores mientras filtran falsos positivos. El resultado es un ataque escalable que refleja —y en algunos casos excede— la eficacia de un investigador humano dedicado.

Para evaluar su enfoque, los investigadores construyeron tres conjuntos de datos con la verdad terrestre conocida. Los primeros enlaces pseudonymous Hacker News los usuarios a los perfiles de LinkedIn del mundo real, confiando en pistas multiplataforma incrustadas en texto público. La segunda coincide con los usuarios de las comunidades de discusión de películas en Reddit. El tercero toma la historia de un solo usuario de Reddit, la divide en dos perfiles separados por tiempo, y prueba si el sistema puede reconectarlos.

En los tres contextos, los métodos basados en LLM han superado de manera espectacular las bases de referencia clásicas, que a menudo han logrado casi cero.

Los números de titulares son llamativos. En algunos experimentos, el sistema logró hasta un 68% recordar con un 90% de precisión, lo que significa que identificó correctamente una parte sustancial de objetivos manteniendo bajas acusaciones falsas. Incluso cuando las cuentas de Reddit se dividieron temporalmente por un año, el rendimiento siguió siendo fuerte. En cambio, los enfoques tradicionales no LLM lucharon por producir partidos significativos. Los resultados sugieren que los avances en el aprendizaje de razonamientos y representación han transformado la deanonimato de un nicho, ataque de datos en una capacidad de aplicación amplia.

Mierda... Su identidad anónima de Internet ahora se puede desenmascarar por $1 😳

No del FBI. Por cualquiera con acceso a Claude o ChatGPT y algunos de sus comentarios Reddit.

ETH Zurich y Anthropic acaban de dejar un papel llamado “Large-Scale Online Deanonymization with LLMs” y el... pic.twitter.com/7XJ5AFsouX

— Alex Prompter (@alex_prompter) 26 de febrero, 2026

El El estudio dice que una preocupación clave es que el oleoducto de ataque se compone de pasos benignos individualmente: resumir texto, generar incrustaciones, candidatos de clasificación y razonar sobre los partidos. Ningún único componente parece intrínsecamente malicioso, lo que dificulta la detección o restricción mediante salvaguardias convencionales. Además, el estudio considera que el aumento del esfuerzo de razonamiento modelo mejora el rendimiento de deanonimato, lo que implica que a medida que los modelos fronterizos se vuelven más capaces, el ataque puede ser aún más eficaz por defecto.

La implicación más amplia es que la "obscuridad práctica" —la idea que los postes dispersos y seudonymous son seguros porque vincularlos es demasiado intensivo en mano de obra— ya no puede sostenerse.

Los nombres de usuario persistentes, estilo de escritura, intereses de nicho y referencias multiplataforma pueden actuar colectivamente como una huella dactilar. Los autores concluyen que los modelos de amenaza para la privacidad en línea deben ser reconsiderados a la luz de las capacidades de LLM. Aunque no todas las cuentas pueden desenmascararse, y el rendimiento varía según el contexto, el estudio deja claro que la barrera técnica para la deanonimato a gran escala ha caído dramáticamente.

Please log in to post comments:  
Login with Google