En un post (en inglés) en el blog Language Log del Institute for Research in Cognitive Science en la Universidad de Pennsylvania nos encontramos con esta interesante descripción de algunos errores en los metadatos que Geoff Nunberg encontró en Google Book Search. El artículo en si es muy interesante, pero también lo es la respuesta de Jon Orwant y el equipo responsable de metadatos de Google Book Search.
En resumen, los registros de libros escaneados en Google Book Search provienen de “proveedores de datos” (en la mayoría de los casos, bibliotecas que han catalogado los libros en el formato MARC) que han alimentado las bases de datos de Google con información errónea que en algunos casos pueden ser absurdas, como lo que surge de la búsqueda de libros relacionados con internet que han sido publicados antes de 1950 o cuando encontramos que 1899 aparece como el año de publicación de varios libros de y sobre Barack Obama.
El post de Geoff Nunberg empieza mencionando que Google probablemente sera la única entidad que escanee la gran cantidad de libros producidos en el mundo y que por ese motivo es importante estar seguros de que lo haga bien ya que probablemente estudiosos de todo el mundo buscarán en esa inmensa base de datos que es Google Book Search. Pero las búsquedas pueden ser afectadas negativamente si se mantienen errores como los descritos más arriba
Geoff Nunberg describe errores (varios) en la asignación de fechas de publicación, pero también presenta varios ejemplos de mala asignación temática como el caso de Unbearable Weight: Feminism, Western Culture and the Body de Susan Bordo que se encuentra clasificado en Salud y Nutrición. Asume que Google comete estos errores principalmente porque usan el esquema de clasificación de los editores americanos que se adecua más a los estantes de las librerías, en vez de uno más adecuado para la gigantesca biblioteca que es Google “… aunque esto tal vez tenga que ver con sus propias ambiciones de competir con Amazon” sentencia Nunberg.
Pero luego explica los desafíos que tienen al momento de catalogar, y clasificar cada uno de esos millones de libros que tienen en la base de datos. La persistencia de 1899 como año de publicación de más de 250 mil títulos en la base de datos de Google se debe a que uno de los proveedores de las fichas bibliográficas asigna ese año a todos aquellos registros que tienen el campo del año de edición vacio
Pero si desean evitar estos errores de las fichas bibliográficas, usando información recuperada de los escaneos de tapas u hojas legales, a veces la computadora comete el error de leer otra fecha (por ejemplo la fecha de un escudo) en vez de la fecha real de edición.
Tanto el post de Nunberg como la respuesta de Orwant, me parecen lecturas fascinantes puesto que nos ofrecen un pantallazo bastante completo de lo que ocurre detrás de bambalinas del esfuerzo de catalogación más ambicioso de la historia.
5 comentarios:
Muy interesante artículo. A veces es difícil procesar tanta información. Un abrazo.
Totalmente de acuerdo con ustedes. Esto sucede al migrar grandes bases de datos de documentos ya catalogados, donde hay datos que no son campatibles con los nuevos sistemas.
Gracias por pasar y comentar. Cariños
precisamente por lo gigantesco de la labor era previsible que hubiera errores, supongo
FELIZ DIA DEL BIBLIOTECARIO!!!!!!!!!!!!!!!
Muy interesante, apenas sé nada de estos temas y me resulta muy curioso.
Un abrazo
Publicar un comentario