Google lanza Dataset Search, un buscador para científicos

Google lanzó una versión beta de Dataset Search, un servicio de búsqueda que le permite encontrar conjuntos de datos en toda la red. El servicio, que en muchos aspectos se asemeja a Google Scholar, también proporciona una descripción completa de las bases de datos y facilita enormemente el proceso de su uso.

El objetivo es unificar decenas de miles de repositorios diferentes para conjuntos de datos en línea. “Queremos que los datos sean reconocibles, pero mantenerlos donde están”, dijo a The Verge, Natasha Noy, una investigadora de Google AI que ayudó a crear Dataset Search.

Los servicios abiertos que proporcionan datos son importantes para muchos propósitos: investigación, aprendizaje automático o sistematización de la información. Uno de los principales servicios similares, por ejemplo, es Kaggle; un sitio que generalmente obtiene sus conjuntos de datos gracias a laboratorios de investigación y grandes organizaciones como Facebook.

Sin embargo, para encontrar un conjunto de datos relevante, se debe usar los motores de búsqueda habituales, que pueden no ser muy convenientes. Por eso, Google decidió facilitar esta tarea mediante el desarrollo de Dataset Search, un servicio que recuerda a Google Scholar: el servicio de la compañía para buscar artículos científicos.

“Los científicos dicen: ‘Sé dónde tengo que ir para encontrar mis conjuntos de datos, pero eso no es lo que siempre quiero'”, dice Noy. “Una vez que salen de su comunidad única, es cuando se pone difícil”, añade.

Por eso, la peculiaridad de este nuevo servicio es que está disponible la información completa de cada conjunto de datos: la fecha de creación de la base de datos, su tamaño, una breve descripción, un enlace a la fuente, así como el número de artículos científicos en los que los datos fueron utilizados. Los desarrolladores del servicio buscaron una descripción estandarizada de los datos propuestos por el equipo de schema.org.

La experiencia de Google

Tener a Google involucrado debería ayudar a que este proyecto sea un éxito, dice Jeni Tennison, CEO del Open Data Institute (ODI). “La búsqueda de conjuntos de datos siempre ha sido algo difícil de respaldar, y tengo la esperanza de que Google interviniendo lo haga más fácil”, añade.

Para crear un buen motor de búsqueda, se necesita saber cómo crear sistemas fáciles de usar y comprender qué quieren decir las personas cuando escriben ciertas frases, dice Tennison. Algo que Google sabe hacer muy bien desde hace algunos años.

De hecho, dice Tennison, idealmente Google publicará su propio conjunto de datos sobre cómo se usa Dataset Search. Aunque las etiquetas de metadatos que utiliza la empresa serán abiertas (con lo cual cualquier competidor como Bing o Yandex también podrá usarlas y crear un servicio similar), los motores de búsqueda mejorarán más rápidamente cuando una masa crítica de usuarios proporcionen datos sobre lo que están haciendo.

“Simplemente entender cómo la gente busca es importante… qué tipo de términos usan, cómo los expresan”, dice Tennison. “Si queremos entender cómo la gente busca datos y hacerlo más accesible, sería genial si Google abriera sus propios datos sobre esto”, añade.

Además de los conjuntos de datos técnicos, Dataset Search también permite buscar datos de ciencias sociales. Hasta el momento, el servicio está en modo beta, pero puede ser probado en el siguiente enlace.

Fuente: nmas1.org