Extracción automática de términos MeSH-DeCS en repositorios de ciencias de la salud: el caso de RUNA

Enviado por Emilio Lorenzo el 2019/04/04

En las jornadas Bibliosalud 2019, (Hospital Universitario Central de Asturias, 4 y 5 de Abril de 2019) presentamos un póster, realizado conjuntamente con Carmen Rodríguez Otero de Bibliosaúde-Biblioteca Virtual do Sistema Sanitario Público de Galicia, sobre los sistemas de extracción automatizada de palabras clave aplicados a repositorios temáticos.

Sigue el texto explicativo y extendido del póster. (También disponible en http://eprints.rclis.org/34448/)

Introducción

Para administrar y mejorar las búsquedas en la literatura biomédica, la Biblioteca Nacional de Medicina de EE.UU. (NLM®) desarrolló el vocabulario controlado Medical Subject Heading (MeSH). La clasificación temática basada en vocabularios se ha identificado como uno de los factores principales en las estrategias de búsqueda y recuperación de documentos.

Desafortunadamente, dada su naturaleza especializada, la asignación manual de términos MeSH a artículos biomédicos es una tarea compleja, subjetiva y que requiere mucho tiempo, por lo que los sistemas de extracción automatizada de palabras clave (AKE) se convierten en soluciones evidentes para su incorporación a sistemas que necesitan describir y manejar miles de documentos, como son los repositorios.

En el póster se muestra la solución incorporada en el repositorio RUNA, repositorio institucional del Sistema Público de Salud de Galicia para facilitar la clasificación temática sobre vocabularios temáticos (MeSH-DeCS).

Se describe de forma específica el sistema de extracción automatica de términos de documentos y cómo se ha integrado dicha solución en el flujo de archivo de documentos en el repositorio para posibilitar el complemento por catalogadores expertos y así mejorar la calidad de la descripción temática efectuada.

Metodología
El sistema construido se integra en el flujo de autoarchivo de los documentos del repositorio, con el fin de unir las ventajas del procesamiento automático con la existencia de un experto que realice la selección de los términos efectivamente usados. En este sentido el subsistema extractor automatizado se visiona como un pre-tratamiento del documento que propone términos de clasificación, que deberán luego ser validados y rechazados por el usuario experto del repositorio.

En primer lugar el documento, normalmente en formato PDF o en formatos tipo WORD, etc.. , es convertido a formato simple textual (txt). Este paso del proceso no sirve únicamente para normalizar la entrada documental al sistema extractor sino que el fichero transformado es usado también por el indexador a texto completo del repositorio RUNA.

A partir de ese fichero «simple» se realiza una primera selección de términos candidatos, con extracción de todas de las frases, palabras, términos y conceptos susceptibles de ser descriptores.

Sigue un proceso de puntuación y selección de términos. Todos los términos candidatos son puntuados combinando las propiedades de los términos (p.ej, su pertenencia al título del documento) con tecnicas de aprendizaje-máquina (machine learning techniques) para determinar la probabilidad de que un elemento sea un término clave. El sistema está configurado para proponer, a la finalización de este proceso un número determinado de términos. En la implementación específica que se ha realizado del motor de extracción, los elementos extraídos deben pertenecer al vocabulario MeSH-DeCS.

Los elementos extraídos se presentan al personal catalogador que en base a su experiencia puede aceptarlos, rechazarlos o añadir nuevos términos, como en un proceso normal de flujo de ingesta al repositorio, finalizando así el proceso de aceptación del documento en RUNA.

Como aspecto complementario, el sistema se inicializa mediante el suministro de un número suficiente de documentos, a modo de corpus, y sus correspondientes metadataciones temáticas realizadas por un experto. El motor de extracción realiza un primer ajuste de las probabilidades de los términos, efectuando así su aprendizaje inicial.

Igualmente, aunque no se ha implementado aún en RUNA, el flujo continuo de las selecciones, revisiones y aprobaciones efectuadas por el personal catalogador pueden ser usados para realimentar el motor de extracción, evolucionando las probabilidades asignadas a cada término y mejorando así la calidad de las propuestas automáticas.

La solución descrita, además del software Dspace del repositorio RUNA, se basa en Maui, un extractor de software libre (licencia GPL). Maui es el acrónimo de Multi-purpose automatic topic indexing, Indexador de tópicos automático y multi-propósito, un software diseñado por la doctora Alyona Medelyan

El núcleo de Maui es el sistema de aprendizaje-máquina denominado WEKA, que a su vez incorpora el algoritmo KEA de extracción de palabras clave.

Resultados y Conclusiones
El sistema construido automatiza la extracción, descripción e indexado de términos tópicos sobre los documentos incorporados al repositorio RUNA. Además de efectuar una extracción automática, permite que el personal experto en catalogación seleccione (y añada/corrija si así lo considera) los términos MeSH-DeCS mas adecuados, mejorando así la calidad y precisión de la catalogación del documento.

Los sistemas de extracción automática de palabras clave pueden considerarse un complemento que facilite de manera eficiente la precisión de la catalogación temática de los documentos incorporados a los repositorios temáticos.

Proceso de extracción

Documentación no técnica

← ¿y cómo es realmente el proceso de implantar DSpace?

Open Repositories 2019, Hamburgo →

Hablando de DSpace