Scraping: «Robé los datos de 700 millones de usuarios de LinkedIn por diversión»
¿Cuántos detalles personales publicas en las redes sociales? ¿Nombre, lugar de residencia, edad, puesto de trabajo, estado civil, foto de perfil?
La cantidad de información que compartimos y cuán cómodos nos sentimos haciéndolo varía de un usuario a otro.
Pero la mayoría aceptan que todo lo que sale a la luz en un perfil público es de dominio general.
Entonces ¿cómo te sentirías si un hacker recopilara toda tu información disponible y la incluyera en una enorme hoja de cálculo junto a los datos de millones de usuarios para venderla en internet al mejor postor?
Eso es precisamente lo que hizo el mes pasado quien se hace llamar «Tom Liner». Compiló en una base de datos la información de 700 millones de usuarios de LinkedIn de todo el mundo y la puso a la venta por unos US$5.000. Y lo hizo «por diversión».
El incidente, y otros casos similares del denominado scraping en las redes sociales han provocado un feroz debate sobre si la información básica que compartimos públicamente en nuestros perfiles debería estar mejor protegida o no.
Presentational grey line
Fue a las 8:57 am, hora de Reino Unido, cuando el post apareció en un conocido foro de hackers.
Era una hora extrañamente civilizada para los piratas informáticos, pero, por supuesto, no tenemos idea de en qué zona horaria vive el hacker que se hace llamar Tom Liner.
«Hola, tengo 700 millones de registros de 2021 de LinkedIn», escribió.
En la publicación se incluyó un enlace a una muestra de un millón y una invitación para que otros hackers lo contactaran en privado y le hicieran ofertas por la base de datos.
«Clientes satisfechos»
Es comprensible que la venta haya causado sensación en el mundo de los hackers. Tom me dice que está vendiendo su botín por unos US$5.000 a «múltiples» clientes.
No revela quiénes son o por qué quieren esa información, pero dice que es probable que los datos se utilicen para otros hackeos maliciosos.
La noticia también ha causado revuelto en el mundo de la seguridad y la privacidad cibernética y generado un debato sobre si deberíamos preocuparnos por esta creciente tendencia de scraping a gran escala.
Estas bases de datos no se crean al irrumpir en los servidores o sitios web de las redes sociales.
En gran parte, el scraping o raspado web se hace «raspando» la superficie pública de las plataformas que utilizan programas automáticos para tomar cualquier información que esté disponible sobre los usuarios.
En teoría, la mayoría de los datos se pueden encontrar simplemente seleccionando perfiles individuales de redes sociales. Aunque, por supuesto, se necesitaría muchísimo tiempo para recopilar todos los datos que son capaces de seleccionar los piratas informáticos.
En lo que va del año, ha habido otros tres incidentes importantes de scraping:
- En abril, un hacker vendió otra base de datos de unos 500 millones de registros extraídos de LinkedIn.
- En la misma semana, otro hacker publicó una base de datos de información extraída de 1,3 millones de perfiles de Clubhouse en un foro de forma gratuita.
- También en abril, se recopilaron 533 millones de datos de usuarios de Facebook a partir de una mezcla de scraping antiguo y nuevo antes de ser entregados en un foro de piratería pidiendo donaciones.
Mark Zuckerberg
El hacker responsable de esa base de datos de Facebook fue también «Tom Liner».
Hablé con Tom durante tres semanas por Telegram. Algunos mensajes e incluso llamadas perdidas se hicieron en mitad de la noche y otras en horario laboral, por lo que no tenía ni idea de su ubicación.
Las únicas pistas sobre su vida fueron cuando me dijo que no podía hablar por teléfono porque su esposa dormía, y que tiene un trabajo durante el día y la piratería es su «pasatiempo».
«Un trabajo muy complejo»
Tom me dijo que creó la base con datos de 700 millones de registros de LinkedIn usando «casi exactamente la misma técnica» que utilizó para crear la lista de Facebook.
«Me tomó varios meses hacerlo. Fue muy complejo. Tuve que piratear la API de LinkedIn. Si haces demasiadas solicitudes de datos de usuario al mismo tiempo, el sistema te veta permanentemente», dijo.
API corresponde a Interfaz de Programación de Aplicaciones y la mayoría de las redes sociales venden asociaciones de API que permiten a otras empresas acceder a los datos de la plataforma, por ejemplo, para marketing o creación de aplicaciones.
El sitio de seguridad digital Privacy Shark, que descubrió por primera vez la venta de la base de datos, examinó la muestra gratuita y descubrió que incluía nombres completos, direcciones de correo electrónico, género, números de teléfono e información de la industria.
«No fue una filtración de datos»
LinkedIn dice que sus investigaciones sugieren que Tom Liner no usó su API, pero confirmó que el conjunto de datos «incluye información extraída de LinkedIn, así como información obtenida de otras fuentes».
«No fue una filtración de datos de LinkedIn y no se expusieron los datos privados de ningún miembro de LinkedIn. La extracción de datos de LinkedIn es una violación de nuestros Términos de servicio y trabajamos constantemente para garantizar que la privacidad de nuestros miembros esté protegida», agregó la empresa.
Facebook hizo unas declaraciones similares respecto al incidente de abril.
Sin embargo, el hecho de que los piratas informáticos estén ganando dinero con estas bases de datos preocupa a algunos expertos cibernéticos.
«Preocupante»
El fundador y director ejecutivo de SOS Intelligence, Amir Hadzipasic, recorre los foros de hackers en la red oscura día y noche. Tan pronto como se difundió la noticia de la base de 700 millones de datos de LinkedIn, él y su equipo comenzaron a analizarla.
«Los robos a gran escala como este son preocupantes dado el intrincado detalle en algunos casos de esta información, como ubicaciones geográficas o direcciones de correo electrónico y números privados de teléfono».
«Para la mayoría de la gente, es una sorpresa que haya tanta información en estos servicios», dijo el especialista.
Tom Liner dice que sabe que es probable que su base de datos se utilice para ataques maliciosos.
Dice que eso «le molesta», pero no explica por qué sigue realizando estas operaciones de scraping.
Amir sostiene que los hackers que compran datos de LinkedIn podrían usarlos para lanzar campañas de piratería específicas en objetivos de alto nivel, como directivos de empresas, por ejemplo.
También dice que hay valor en la gran cantidad de emails activos en la base de datos que se pueden usar para enviar campañas masivas de phishing por correo electrónico.
«Los datos son públicos»
Al experto en seguridad cibernética Troy Hunt, quien ha pasado la mayor parte de su vida laboral analizando el contenido de bases de datos pirateadas, no le preocupan tanto los recientes incidentes de scraping y dice que debemos aceptarlos como parte del hecho de que nuestro perfil es público.
«Definitivamente, no se trata de infracciones. La mayoría de estos datos son públicos de todos modos».
«La pregunta que debe formularse en cada caso es cuánta de esta información es de acceso público por elección del usuario y cuánta no se espera que lo sea».
Troy está de acuerdo con Amir en que los controles de las redes sociales deben mejorarse y dice que no podemos ignorar estos incidentes.
«No estoy en desacuerdo con la postura de Facebook y otras empresas, pero creo que la respuesta de ‘esto no es un problema’, aunque puede que sea técnicamente precisa, pierde la noción de cómo son estos datos y tal vez minimiza su papel en la creación de estas bases de datos».
Es probable que Tom sea demandado por robo de propiedad intelectual o infracción de derechos.
Pero cuando se le pregunté si le preocupaba que lo arrestaran me dijo que nadie podría encontrarlo, y terminó nuestra conversación diciendo «pásela lindo».
Fuente: BBC