Indexación en Scholar. Dudas y certezas

Google Scholar  es en la actualidad una de las fuentes principales para la búsqueda de información publicada de índole científico-académica. Por ello, la visibilidad de los contenidos de un repositorio en Scholar es de primordial importancia para la valorización del mismo.

De forma simplificada, Scholar rastrea e indexa los documentos que tengan una estructura de aspecto académico. A continuación, el rastreador analiza los enlaces a los metadatos, que a continuación son evaluados por el algoritmo de Scholar para determinar si la información se agrega o no al índice de Scholar.

Un conteo reducido de resultados indexados, la disminución de los mismos en un período de tiempo o incluso la desaparición de todos los contenidos del índice Scholar, es causa habitual de desconcierto en los responsables de los repositorios.

Lo que sabemos

Google y Google Scholar son dos motores de indexación y búsqueda distintos, accediendo a ellos por dos URLs distintas. Las habituales recomendaciones SEO no parece que sean efectivas para la mejora de la indexación Scholar.

La comunidad de desarrolladores de DSpace y el equipo de Google Scholar han hecho un esfuerzo importante en adaptar DSpace 5, 6 y 7 a los requisitos de Scholar, trabajando conjuntamente. Es habitual el soporte y presencia de expertos de Scholar en conferencias de Dspace, webinars de divulgación, etc…, Una frase que podría describir esa colaboración sería «Scholar likes Dspace»

Scholar recomienda el uso de las metaetiquetas conformes al esquema Highwire Press para la correcta indexación. Una instalación base de DSpace incorpora mapeos estándar entre Dublin core y los metatags Highwire. Si usa los metadatos «habituales» para describir sus ítems en DSpace, los metatags Highwire serán razonablemente correctos. Como DSpace hace un mapeo de los metadatos internos a las metatags usados por Scholar, si ese mapeo está mal configurado, habrá errores (muchos) de indexación.

<meta content="A 13 kg meteoroid from comet 21P/Giacobini-Zinner recorded as a bolide during the 2011 draconid outburst" name="citation_title">
<meta content="eng" name="citation_language">
<meta content="apellido;  nombre" name="citation_author">
<meta content="http://rabida.uhu.es/dspace/bitstream/10272/9004/2/A%2013%20KG.pdf" name="citation_pdf_url">
<meta content="2012" name="citation_date">
<meta content="http://rabida.uhu.es/dspace/handle/10272/9004" name="citation_abstract_html_url">

Un repositorio no será indexado si presenta (bastantes) errores en la indexación. Los errores (relacionados con los metadatos) más habituales son

  • En general, metatags no alineados con la especificación Scholar
  • Ítems sin fecha de publicación o considerando dc.data.available (fecha de subida del repositorio) como el dc.date.issued.
  • Ítems con lista de autores que difieren del artículo «real». Orden de autorías cambiado o directores de tesis que aparecen como autores, etc
  • Uso de citation_date en lugar de citation_publication_date
  • Formato de fechas YYYY-MM-DD en vez del preferido por Scholar de YYYY/MM/DD
  • Disparidad entre los metadatos extraídos de nuestro repositorio y los extraídos de otras fuentes.
  • etc..

Además, Scholar necesita poder acceder a los ficheros de contenido, por lo que otro conjunto de errores deriva de las restricciones al acceso al bitstream o fichero (acceso cerrado, embargos, inexistencia del fichero de contenido). Si Scholar no puede acceder al fichero, no indexa el ítem. Si esta condición se da en muchos ítems, quizá no indexe nada del repositorio.

Relacionado con el párrafo anterior, Scholar penaliza los redireccionamientos de la descarga de bitstreams, En versiones «antiguas» de DSpace la forma de capturar las estadísticas de Analytics era mediante redireccionamientos, pero ya en versiones 5,x y posteriores esa «técnica» no es necesaria. No obstante, debería revisar que otros sistemas intermedios no están interfiriendo en este sentido (quizá estadísticas Matomo, etc…)

Además de los metadatos de los artículos, Scholar extrae metadatos de indexación analizando la primera página del PDF de contenido, por lo que la funcionalidad de DSpace denominada «PDF Citation Cover Page» , o equivalentes, puede afectar a las técnicas de extracción de metadatos de Scholar. Y recordamos de nuevo, el repositorio puede ser penalizado en todo o en parte por Scholar.

Un robots.txt, que referencie adecuadamente el sitemap es una excelente ayuda para que Scholar nos localice todo el contenido.

# The FULL URL to the DSpace sitemaps
# The http://rabida.uhu.es/dspace will be auto-filled with the value in dspace.cfg
# XML sitemap is listed first as it is preferred by most search engines
Sitemap: http://rabida.uhu.es/dspace/sitemap
Sitemap: http://rabida.uhu.es/dspace/htmlmap

##########################
# Default Access Group
# (NOTE: blank lines are not allowable in a group record)
######################

Lo que sospechamos…

Scholar es un «proyecto» diferenciado, con su equipo propio (reducido, parece) y continuidad «variable», como parte de los proyectos «experimentales» de Google. Esto hace que la interlocución con el equipo de soporte sea a veces errática o dificultosa.

La indexación Scholar tiene mecanismos distintos de la indexación habitual de Google, ésta que siempre nos parece mágica y automática. Mientras que Google indexa un sitio si lo descubre automáticamente o se le explicita con las herramientas de web manager, la indexación Scholar parece que necesita ser «solicitada» por los responsables de un repositorio.

No hay una indexación continua del espacio de repositorios, sino que el índice se actualiza con una periodicidad que no debe llegar a dos veces al año…

Scholar no tiene una declaración explícita de lo que considera trabajos «a indexar» (scholarly outputs …) La identificación de contenido «indexable» la realiza ponderando una serie de factores (presencia de metadatos, PDFs con texto extraíble, etc..). Si un repositorio tiene una mezcla significativa de trabajos de investigación con otro tipo de material (educativos, fondo antiguo, etc..) es posible que la indexación no sea efectiva o no se produzca.

No conocemos casos en que Scholar haya reportado errores debido a la presencia de código javascript empotrado en las páginas de item. Como recomendación general, evite javascript para la recuperación de texto indexable (funcionalidad muy habitual en la visualización de dc.description.abstracts, por poner un ejemplo). Que no conozcamos casos de no-indexación no significa que esta causa de mala-indexación no sea importante. Simplemente Scholar no lo notifica a los afectados.

Para saber mas

Conferencia Monica Westin a EIFL

Recursos en la wiki de Dspace 7

Los comentarios están cerrados.