Cualquier puede haber robado datos policiacos de ADN de un millón de estadounidenses
La base de datos privada de ascendencia genética que utiliza la policía de EE. UU. para atrapar a delincuentes, como el asesino de Golden State, representa un riesgo para la seguridad ya que cualquier país podría robar los datos de ADN de un millón de estadounidenses. Así lo afirman varios expertos en seguridad.
Un error en esta base, llamado GEDmatch, no solo podría exponer la información de salud genética de todas esas personas, también permitiría que un rival como China o Rusia creara una poderosa base de datos biométrica que podría utilizar para identificar a casi cualquier estadounidense a partir de una muestra de ADN.
GEDMatch, que genera perfiles de ADN de forma colaborativa (crowdsourcing), fue creada por aficionados a la genealogía. Su objetivo era que las personas pudieran buscar a sus parientes y está dirigida al 100 % por voluntarios. Esta base de datos es un ejemplo de que la tendencia a compartir datos genéticos online puede crear riesgos de privacidad que afectan a todos, incluso a quienes no quieren compartir su propia información.
«Cualquiera puede cambiar fácilmente de número de la tarjeta de crédito, pero el genoma no se puede reemplazar», destaca el investigador postdoctoral de las ciencias de la computación de la Universidad de Washington (EE. UU.) Peter Ney. En un informe publicado online, el experto, junto a los profesores e investigadores de seguridad del ADN, Luis Ceze y Tadayoshi Kohno, han descrito su proceso para desarrollar y probar un nuevo ataque basado en los datos de ADN subidos en GEDmatch
Gracias a perfiles de ADN especialmente diseñados, los investigadores pudieron realizar búsquedas que les permitieron adivinar más del 90 % de los datos de ADN de otros usuarios. El fundador de GEDmatch, Curtis Rogers, confirmó que los investigadores le informaron de esta amenaza durante el verano. El responsable afirma: «Por supuesto que también nos preocupa la privacidad, y es bueno que se realicen estudios como este. Pero cualquier cosa que se haga con la genealogía, siempre habrá una probabilidad de poner en peligro la privacidad. La genealogía es un procedimiento en el que se quiere comparar nuestra información con la de otras personas».
El investigador de genómica y jefe del departamento científico del servicio de interpretación de genomas Insitome, Razib Khan, afirma que la nueva investigación supone una demostración a gran escala de las debilidades ya conocidas por los aficionados. Destaca que es consciente de los esfuerzos para «arañar» GEDMatch, o recopilar más datos de lo habitual, y cree que ya podía haberse producido un mayor ataque para recoger gran parte de los datos. El investigador señala: «Supongo que es casi seguro que ya se ha hecho. Los gobiernos están recopilando datos sobre las personas. Nunca se sabe para qué pueden usarlos».
Cuando se le preguntó si tenía pruebas de que GEDMatch ya haya sido víctima de ataques concretos, ya sea de recolección o de escaneo, Rogers respondió: «No quiero entrar en eso. No que yo sepa. No lo sé». Tampoco quiso comentar si los funcionarios de seguridad nacional le han contactado por su página web.
‘Crowdsourcing’ de ADN
Rogers empezó con el servicio de genealogía como una vía para que las personas subieran sus resultados de las pruebas de ADN de servicios como 23andMe y pudieran localizar a sus parientes mediante comparaciones de ADN. Esta base de datos de crowdsourcing ya aloja 1,3 millones de perfiles, asegura, aunque algunos están duplicados.
A medida que la base iba creciendo, llamó la atención de los investigadores policiales. En 2017, la policía de California (EE. UU.) anunció que, sin el conocimiento de Rogers, había utilizado GEDMatch para ayudar a identificar al asesino del Golden State. Para lograrlo, la policía subió los datos de ADN extraídos de la escena del crimen y los comparó con los de los usuarios para identificar a algunos de sus familiares.
Desde entonces, se han identificado docenas de asesinos y violadores gracias a GEDmatch. Pero también ha surgido el debate sobre la privacidad, en parte porque la policía buscó el ADN de los usuarios sin su consentimiento. En respuesta, Rogers permitió a los usuarios optar por participar o no en las búsquedas policiales, o simplemente por eliminar sus perfiles.
Pero hay una preocupación aún mayor: si una base de datos de ADN es suficientemente grande, prácticamente cualquiera puede ser rastreado a través de sus familiares, incluso si nunca se haya hecho una prueba de ADN. Con un millón de perfiles, la base de datos incluye a primos segundos o terceros de la mayoría de los estadounidenses, advierte el investigador de la Universidad de California en Davis (EE. UU.) Doc Edge. A finales de octubre, Edge publicó el primer artículo que muestra cómo las bases de datos de ascendencia genética podrían ser vulnerables a un buscador inteligente.
Ahora, el equipo de la Universidad de Washington ha demostrado un nuevo ataque diseñado específicamente contra GEDmatch y que es «mucho más fuerte», según el científico jefe de otra compañía de genealogía de ADN, MyHeritage, Yaniv Erlich.
Los investigadores aprovecharon el funcionamiento del sistema de comparación genética de GEDmatch para deducir los datos de ADN de otras personas. Erlich afirma: «Estos investigadores entraron por la puerta principal, no se colaron. Hasta donde sabemos, ni siquiera se trata de un método ilegal».
Cuando un usuario busca a sus parientes, el programa compara miles de marcadores de ADN (llamados SNP) del genoma del usuario con los de otros en la base de datos. Cuanto más coincidan los datos, más estrecha resulta la relación entre esas personas. Un padre y su hijo compartirán la mitad de su ADN, por ejemplo.
Para probar su hackeo, Ney subió los archivos especialmente diseñados de ADN del «ataque», y luego los comparó con los perfiles objetivo que también había creado. Descubrió que, con una docena de archivos de ataque podía deducir casi todos los marcadores de ADN reales de los perfiles objetivo, a pesar de que estos debían ser privados.
Riesgo de seguridad nacional
El mismo ataque no funcionaría en otras web de genealogía, como 23andMe, porque no permiten la subida de datos. Otros, como MyHeritage, permiten subirlos pero no brindan a los usuarios tanta información sobre las coincidencias. Erlich opina: «El problema de GEDmatch es que el navegador es demasiado bueno y busca muy bien. Si yo fuera ellos, lo quitaría, lo arreglaría y luego lo volvería a colocar».
Para el experto, esta vulnerabilidad tiene implicaciones de seguridad nacional. Si una agencia de contrainteligencia extranjera tomara un millón de perfiles de ADN estadounidenses, su país podría usar la genealogía genética para identificar la verdadera identidad de espías u diplomáticos estadounidenses, localizar a sus familiares o descubrir material genético comprometedor, como hijos no reconocidos. Dado que otros países no tienen tales bases de datos para que Estados Unidos las robe, el riesgo no sería simétrico.
Elrich continúa: «Podría representar una mejor capacidad que la que tiene actualmente el FBI, y sería posible usarla de cualquier forma. Con los simples datos, se pueden lograr algoritmos aún mejores. Sería posible identificar a espías o hacer vigilancia genética». Además, apunta que los estafadores podrían crear cuentas falsas y pretender ser el pariente perdido de alguien.
Ney menciona que en julio explicó estas vulnerabilidades a GEDmatch, pero no está seguro de que esta pequeña empresa sea capaz de reparar los problemas. Inicialmente, su equipo le dio hasta septiembre para solucionar los problemas, pero Ney afirma que pospuso la publicación de su informe durante más de un mes cuando notó que el sitio web no había sido reparado.
El investigador añade: «Entonces, hace un mes, hicieron un pequeño cambio en su algoritmo para que no permita el ataque más importante que desarrollamos. Nuestra pregunta es si esa solución resulta sólida para un adversario determinado. Se podría tratar de un parche temporal».
GEDMatch, que perdió una casa en Lake Worth (EE. UU.), es una pequeña empresa cuyo objetivo es la genealogía y la educación, pero los beneficios, afirma Rogers. Y reconoce que su equipo de cinco voluntarios a tiempo parcial no tendría los recursos necesarios para contratar consultores de seguridad.
El responsable, que no es programador informático, tampoco dio detalles sobre las soluciones que GEDmatch ha implementado. En una entrevista reciente de limitó a decir: «Dejé que los técnicos trabajaran en eso, y creo que lo han conseguido». Más tarde envió un correo electrónico para asegurar que el sitio web estaba «trabajando activamente para agregar más medidas de seguridad basadas en los problemas presentados».
Ney advierte de que este sitio web de genealogía no es seguro, y subraya: «¿Cuánto esfuerzo se necesita para asegurar una página web tan grande con más de un millón de datos genéticos? Creo que es algo difícil para cualquiera. La pregunta que tengo es si los voluntarios son capaces de manejarlo».
Ney tampoco cree que los administradores de GEDmatch tengan forma de saber si un atacante ya se ha llevado ese tesoro de datos de ADN, ya que su ataque podría parecer una simple búsqueda de familiares. Ney concluye: «Están en una situación de ignorancia, que es su gran problema. El peor tipo de ataque es del que ni siquiera sabemos que ha tenido lugar».
Fuente: technologyreview.es