Warning: Constant WP_MEMORY_LIMIT already defined in /home/elorenzo/domains/arvo.es/public_html/dspace/wp-config.php on line 94
cfernandez | Hablando de DSpace - Part 2

Author Archives: cfernandez - Paginas 2

Novedades Dspace en la conferencia Open Repositories 2016

La Conferencia Internacional de Repositorios Abiertos (11th International Conference on Open Repositories) se acaba de celebrar la semana pasada en Dublín. Al ser uno de los eventos principales en el mundo de los repositorios, pues no nos lo pudimos perder, pues concentra un gran número de novedades, presentaciones, proyectos, comunicaciones y  asistentes, de evidente interés.

Además, la Conferencia se aprovecha para la sesión plenaria de DuraSpace, en que la dirección rinde cuentas a los miembros de la organización, ver las diapositivas de la presentación y se anunció la nueva política de transparencia y apertura, openness, de DuraSpace.

Adicionalmente se celebraron los DSpace Interest Groups,  en que se actualiza el estado del proyecto. Tim Donohue, responsable técnico del proyecto DSpace, junto con un grupo de desarrolladores proporcionó una visión de la versión 6, del proyecto DSpace-CRIS y de la nueva interface de Dspace basada en Angular2.js. Ampliaremos estos temas en otro post.

Y no acabó ahí la conferencia, pues el jueves el DSpace Steering Group hizo una presentación sobre el Estado de Dspace, hablando sobre el modelo de gobernanza, la financiación, la membresía, el papel de los diversos grupos en el ecosistema DSpace  (DCAT, Registered Service Providers, Marketing Interest Group…) y la planificación o roadmap.

En cuanto a nosotros, pues la conferencia era un lugar ideal para presentar a una audiencia especializada el módulo OPRM que os hablamos en otro post. Y alli hablamos,  junto con Pandelis Perakakis, responsable del proyecto Open Peer Review, e Isabel Bernal, de digital.CSIC. Os mantendremos informados de novedades en este módulo.
IMAG1154

Módulo Open Peer Review

Con el apoyo financiero de OpenAIRE, la organización Open Scholar ha coordinado un consorcio de 5 socios para desarrollar un módulo de Peer Review Abierto para revisar y evaluar trabajos albergados en repositorios institucionales basados en software DSpace

Open Peer review module
En este proyecto han participado:

  • DIGITAL.CSIC, el repositorio institucional del Consejo Superior de Investigaciones Científicas
  • e-IEO, repositorio del Instituto Español de Oceanografía
  • IIIA-CSIC, Instituto de Inteligencia Artificial del CSIC en Cataluña
  • SECABA, Multidisciplinary Laboratory of Library and Computer Sciences en Granada
  • Arvo Consultores

El proyecto ha sido financiado por OpenAIRE 2020, EU-Horizon2020 Grant ID 643410, y se acaba de presentar en el Jardín Botánico de Madrid, ante un numeroso grupo de responsables de repositorios institucionales e investigadores interesados en los nuevos paradigmas de revisión científica.

Señalar que iguamente se presentará en la conferencia Open Repositories 2016 de este año en Dublín.

El módulo Open Peer Review, OPRM, se puede instalar en repositorios institucionales Dspace existentes como un add-on. Los objetos digitales alojados de estos repositorios podrían entonces ser evaluados por un número ilimitado de evaludores, permitiéndo no sólo una evaluación cualitativa en forma de texto, sino también las medidas cuantitativas que serán utilizados para construir la reputación del objeto. Es importante destacar que este sistema de evaluación es abierto y transparente. Por abierto -open- queremos decir que el texto completo de las revisione está a disposición de los usuarios junto con el trabajo de investigación original. Por transparente se entiende que la identidad de los revisores se divulgará a los autores y al público. En nuestro modelo, la apertura y la transparencia son dos aspectos elementales que consideramos necesariao para abordar el problema de opiniones sesgadas o no expertas, que es inherente al modelo de revisión por pares anónimos, que se caracteriza por la falta de responsabilidad de los colaboradores.

El código del proyecto, así como sus indicaciones para la instalación,  puede encontrarse en https://github.com/arvoConsultores/Open-Peer-Review-Module/wiki

 

¿Por qué debiera interesarte la versión 6 de Dspace?

Hemos de decir que DSpace 6 es, principalmente, una versión de transición hacia la versión 7, esa esperada versión en la que sólo habrá una única interfaz de usuario. Por eso, para poder abordar una transición manejable a la V7, se ha tenido que re-escribir la mayor parte de la Java API de DSpace. Igualmente se ha mejorado el sistema de configuración, para evolucionar hacia un sistema más flexible y con capacidad de carga dinámica de las configuraciones.

Para dar una idea del esfuerzo tras este cambio, unas cifras del mismo:

      La refactorizacion de la Java API ha requerido cambiar 1,440 de los ficheros java de la apliciación DSpace.
      El Sistema Mejorado de Configuración (Enhanced Configuration System) modifica menos ficheros ¡solo 324¡¡¡ pero afecta a unas 6,000 líneas de código con el fin de lograr un sistema más flexible de configuración de Dspace.

Si a lo anterior el añadimos unos procesos de prueba de Dspace (los testhaton son una parte de este proceso…) mas intensos, pues tenemos unas cuantas buenas razones para el retraso que esta versión está sufriendo (de finales de 2015 a enero de 2016, luego al 8 de febrero y luego a una fecha indeterminada entre marzo y abril o mayo, quién sabe…)

Bien, y funcionalmente ¿qué ofrece la nueva versión?

  • Mejoras a los plugins de almacenamiento físico, incluyendo soporte para el almacenamiento Amazon S3
  • Chequeo del estado del repositorio, con informes al administrador via correo electrónico.
  • Panel de control administrativo ampliado
  • mejoras a la REST API con soporte a todos los métodos de autenticación,  Shibboleth, LDAP, etc
  • mejoras a XMLUI : importación de metadatos de fuentes externas como Pubmed y  ScienceDirect).
  • mejoras a XMLUI:  exportación de resultados de búsqueda a CSV

Posiblemente no encuentres muchas razones (funcionales) para  plantear una migración, excepto que tu versión actual sea realmente antigua y quieras recoger los frutos funcionalmente jugosos de las versiones 3, 4 y 5.

 

 

XXIII Asamblea Anual de Rebiun

Arvo participa como patrocinador en la XXIII Asamblea Anual de la Red de Bibliotecas Universitarias Españolas en la Universidad de Cantabria los días 5 y 6 de noviembre del 2014. La Asamblea Anual es el  foro nacional para planificar la organización, el funcionamiento y los objetivos de REBIUN

La Red de Bibliotecas Universitarias, está formada por las bibliotecas de las 76 universidades miembros de la Conferencia de Rectores de las Universidades Españolas (50 de ámbito universitario público y 26 de ámbito universitario privado) y el CSIC.  Sus objetivos son liderar, coordinar y dar las directrices a las bibliotecas universitarias para poder realizar proyectos conjuntos que den como respuesta nuevos retos en ámbito del aprendizaje, la docencia, la investigación y la formación.

Información detallada del evento en el siguiente enlacehttp://eventos.crue.org/event_detail/2133/detail/rebiun-2015.-xxiii-asamblea-anual-de-la-red-de-bibliotecas-universitarias.html

y puedes seguir el evento por Twitter con el hashtag 

y además en Youtube,  la conferencia inaugural  por  Ignasi Labastida, con el título «Los retos de la investigación en abierto para las universidades» en  esta dirección:  https://www.youtube.com/watch?v=sP7lB9R37Co

 

El soporte del estándar METS en DSpace

El estándar METS, Metadata Encoding and Transmission Standard, es una especificación XML que especifica los metadatos necesarios para la gestión de objetos digitales en un contexto digital así como para el intercambio entre sistemas de dichos objetos. METS se crea y diseña para proporcionar un formato relativamente simple de descripción de las actividades realizadas durante el ciclo de vida de un objeto digital.

Adicionalmente a la metadatación descriptiva interna, realizada habitualmente en Dublin Core Cualificado, el software Dspace incluye entre sus funcionalidades lo que se denomina un package disseminator and matching ingester adecuado para el tratamiento de determinados documentos METS.  La finalidad de este elemento es ayudar a los usuarios en la ingesta y exposición de los objetos DSpace usando el estándar METS.

DSpace tiene definidas pasarelas en formatos METS que usan el perfil de aplicación denominado, DspaceMETSSIPProfile,  en el que se han tomado las siguientes decisiones de diseño relevantes:

  • Los elementos de metadatación descriptiva se contemplan bajo un esquema MODS (Metadata Object Description Schema) aunque el formato METS acepta el encapsulado (wrapping) de otros esquemas, incluso coexistiendo en una única declaración.
  • Los elementos de metadatos técnicos que DSpace tiene definidos, sirven para sus propias necesidades de gestión del ciclo de vida y preservación de los objetos almacenados, lo que significa que no se contemplen objetos, eventos u agentes fuera de esas necesidades de gestión propias.  Mediante mapeo del  DSpace Content Object Model al modelo de objeto METS estos elementos se expresan usando el esquema de metadatos de preservación PREMIS. Es importante notar que el uso del PREMIS Data Dictionary no significa que DSpace soporte una implementación completa del modelo de datos PREMIS (p.ej. no usa las entidades de tipo evento)
  • Entre los elementos de metadatación administrativa, los correspondientes  derechos y autorías, si éstos son explícitos, se referencian, p.ej.  las licencias CC como rdf/xml, e incluyen en el manifiesto xml

Los creadores de este perfil METS, siguiendo criterios de simplicidad en la transferencia de información en los formatos SIP/DIP,  eran plenamente conscientes de la sobre-simplificación del mismo para una descripción completa de los AIPs:

Future use of this profile, or related profiles, to govern the creation of Archive Information Packages (AIPs) will require the inclusion of additional information to account for the larger information needs of AIPs.

Estas pasarelas o transformaciones se emplean en los siguientes ámbitos
Ingesta

  • El soporte de formatos empaquetados METS (conformes al perfil apuntado) está incluido en la herramienta de importación denominado packager
  • La interface SWORD también está adaptada para la ingesta de paquetes METS, haciendo uso del perfil especificado, mediante el plugin SWORDMETSIngester

Difusión:

  • El soporte de formatos empaquetados METS está incluido en la herramienta de exportación del packager
  • OAI-PMH, con metadataFormat METS
  • además, se expone en el interface XMLUI   (p.ej. añadiendo a la url de un item el /mets.xml)

Estas transformaciones exponen nada más que una historia parcial del ítem, no recogiendo todo el ciclo de vida de nuestro objeto digital, por otra parte desconocido para DSpace, ya que DspaceMETSSIPProfile es un perfil con objetivos diferentes de los requeridos habitualmente en los proyectos de digitalización como p.e.j:

  • Library of Congress METS Profile for Bibliographic Records
  • METS profile Biblioteca Virtual Patrimonio Bibliográfico del Ministerio de Educación y Cultura
  • METS Profile for Historical Newspapers (no registrado aún)

 

Liberada la versión 5 de DSpace

El 21 de enero de 2015 se produjo la liberación de Dspace v5.0, tras un proceso de desarrollo que arrancó hace un año, y que tuvo su pre-versión el pasado 3 de noviembre cuando comenzó el Testhaton.

Señalaríamos que incorpora una larga lista de pequeñas correcciones, pero que su característica principal son las funcionalidades añadidas (por eso es una versión, claro..) y que pasamos a revisar rápidamente:

El tema Mirage2 para XMLUI.  Bien, qué quéreis que os digamos, no es exactamente una novedad, pero es una excleente noticia su incorporación a la versión 5. El tema Mirage2 de @tmire nos gustó según lo vimos en su presentación «oficial» en el Open Repositories de Helsinki en junio de 2014. Tanto nos sedujo que lo empezamos a implantar en versiones 4 de inmediato y ya llevamos varias.

Actualización automática de datos en las migraciones a la versión 5. Simplifica la ejecución de los scripts de actualización de los esquemas de BBDD y migra los índices SOLR.  Es un avance sobre el ¿proceso? artesanal actual de migración. No se si lo pondríamos en una lista de nuestras prioridades, pero bienvenida la simplificación.

Importación de SIPs desde el interface de usuario. Pschee, la parte más compleja de una importación no es la ejecución del comando desde la UI o desde el CLI, sino la propia creación del paquete.

REST API con CRUD (Create/Read/Update/Delete). Esto ya está mejor, sobre todo porque estabilizará  el paisaje de proliferación de interfaces REST que había por el universo DSPaciero. Recordemos que aunque otras interfaces REST (la de Hedtek, p.ej.)  ya posibilitaban el Create/read/update,  lo que se necesitaba , y así se discutió en DCAT y otros foros de desarrollo, era la continuidad de las soluciones adoptadas. La api usada es la JAX-RS: Java API for RESTful Web Services.

Todos los DSpaceObjects con soporte de metadatos. Esto es interesante. Esta extensión es la que posibilitará (posibilitará, porque la interface de usuario aún no se ha extendido para poder gestionar el nuevo modelo)  flexibilizar la infraestructura de metadatos, que hasta ahora era aplicable sólo a los ítems, a las Comunidades, colecciones, e-persons, grupos, …

Soporte Linked (Open) Data mediante una interface RDF. A partir de esta versión se podrán publicar contenidos del repositorio en forma de Linked Open Data. No obstante, no todo es tan sencillo, pues la instalación de Dspace hay que complementarla con otra webapp, un Triple Store, es decir una base de datos que almacene de forma nativa el modelo RDF. El sistema, puede servir Apache Fuseki, debe soportar SPARQL 1.1 Query Language y  SPARQL 1.1 Graph Store HTTP Protocol.

Las estadisticas de Google Analytics ahora recogen las descargas de bitstreams (p.ej, las que vienen directamente de Google Scholar y que antes no se recogían como eventos) y se pueden visualizar (al menos si se usa Mirage2)

Se ha realizado una primera integración con los identificadores ORCID mediante la generación de un nuevo índice SOLR de autoridades. La clave de autoridad enlaza ahora con metadatos adicionales, entre los que se incluyen el identificador ORCID y nombres alternativos de autor. Esto sólo funciona en XMLUI, y bien, resuelve problemas de identificación de autores a las organizaciones que usan este identificador, pero no es la integración con las ORCID_API que estábamos esperando.

Y más mejoras, como la Creación de Thumbnails con ImageMagick / Ghostscript; la Autogeneración de páginas de cubierta PDF en la descarga de los objetos, la función lookup sobre SHERPA/RoMEO y alguna funcionalidad adicional, las puedes ver aquí.

 

Traducción al español de Dspace 5 (y 4) disponible

Ya está puesta a disposición de la comunidad DSpace la traducción al español de la versión 5.0 e interfaz XMLUI. El fichero messages_es.xml y el resto de ficheros de idiomas de la release está incorporado en la distribución de la versión 5.0, además de encontrarse ya disponible en el ticket jira 2233 o en el github

Así, está disponible el fichero de traducción de los mensajes correspondientes al Discovery, SwordClient y XMLWorkflow.  Recordar que desde la versión 1.8, cada módulo distribuye su propio messages.xml, separado del messages.xml principal, de manera similar a la fragmentación de los ficheros de configuración…

Además, como los ficheros de mensajes son compatibles con versiones atrasadas, pues se puede incorporar a las versiones 4 (de las que no se disponía de versión traducida)

Moviendo assetstores

Ya vimos en un post anterior qué estructura tenía el assetsore y cómo se configuraba este subsistema de DSpace, vamos a explicar ahora cómo se mueven los assetsores.  ¿Y por qué ibamos a querer mover un assetstore?,  pues puede haber múltiples razones:

  • Tenemos otro tipo de almacenamiento, más moderno, más barato, con mejor rendimiento, el assetsore estaba antes como almacenamiento de servidor y ahora lo muevo a almacenamiento en red, SAN, etc…
  • Donde lo tenemos actualmente nos está danto algún error de disco,
  • Separamos el assetstore del resto de ficheros del sistema Dspace, para facilitarnos la migración de servidores, cambio de versiones, crecimiento orgánico de la instalación, etc..

Los pasos son bien sencillos:

  • Asumiendo que sólo tenemos un assetstore y que nunca la movimos de sitio, es decir tiene la configuración inicial que viene estándar en el dspace.cfg,  (comprobarlo viendo la variable assetstore.dir). Algo así como:
 assetstore.dir = ${dspace.dir}/assetstore

tenemos que localizar en nuestro sistema de ficheros el   ${dspace.dir}/assetstore siendo  ${dspace.dir} el directorio de ejecución de dspace, otra variable de dspace.cfg….  Es un poco recursivo, pero lo localizaremos sin problemas..

  • Paramos Dspace, es decir paramos la aplicación bajo el servidor Tomcat, o todo el Tomcat si es la única aplicación bajo el servidor de aplicaciones
  • Movemos (mejor copiamos, por ahora) todos los directorios bajo  ${dspace.dir}/assetstore a la nueva localización
  • Reconfiguramos Dspace, sustituyendo assetstore.dir por el valor de la nueva localización, como  por ejemplo:
     assetstore.dir = /data/assetstore
  • Rearrancamos Dspace, y finalizada la  tarea y el post.

Advertencia: Tener cuidado con las manipulaciones al assetstore, perderlo es perder su instalación DSpace…toda precaución es poca.

 

 

Open repositories 2014

Ya han pasado unas semanas desde la conferencia Open Repositories 2014. Decir que la OR2014, este año en Helsinki con cerca de 500 delegados en esta edición, es posiblemente el evento más importante del calendario del Acceso Abierto, con énfasis en las realizaciones prácticas y planteamientos tecnológicos.

Este año fuimos uno de los  patrocinadores de la conferencia, y ante todo, queríamos dar las gracias a los organizadores (la National Library de Finlandia) por la excelente hospitalidad recibida. 

IMG_20140610_154710

Comentaríamos que se presentaron muchos proyectos e iniciativas relacionados con la preservación (Hydra, Dryad..) los repositorios (DSpace, ePrints, Fedora, Islandora e Invenio) y las plataformas de servicios (Figshare, OpenRepository, DuraCloud, DspaceDirect, eudat…), pero ¿qué hay de nuevo en el ámbito de Dspace?  (recordemos que se aprovecha la celebración de OR2014 para realizar el DSpace Interest/User Group Meeting). 

De nuestro particular interés,  reseñaríamos:

  • el interés en los estándares de indentificación común, como ORCID, y se plantea su integración en el core de DSpace 5.
  • El desarrollo de funcionalidades de interoperabilidad entre plataformas, como determinadas integraciones con PubMed o WoS
  • Las nuevas interfaces adaptativas disponibles tanto en XMLUI (Mirage 2) como en JSPUI
  • las adaptaciones de compatibilidad OpenAire
  • el nuevo modelo de gobernanza de Dspace
  • y…

Las presentaciones del OR2014 podeis verlas aquí (todavía están subiendo algunas…..)  y  grabaciones del martes, miércoles y jueves,  de las sesiones de la conferencia aqui

 

 

La estructura del assetstore

Mientras que el modelo de datos de Dspace (metadatos, workflows, estructura del repositorio, usuarios..) está soportado por la base de datos Oracle o Postgresql, los contenidos de los ítems se almacenan en el sistema de ficheros denominado assetstore.

La configuración tradicional del assetstore se realiza en el fichero dspace.cfg, mediante el parámetro:

assetstore.dir = [dspace]/assetstore para un solo sistema
assetstore.dir = [dspace]/assetstore_0
assetstore.dir.1 = /mnt/other_filesystem/assetstore_1       para más de un sistema.

La localización física de un objeto se guarda en la base de datos por lo que es de especial importancia NO mover los bitstreams entre assestores (además, el backup del assetstore tiene que formar parte de cualquier estrategia de backup). Aunque hay procedimientos para fusionar y mover assetstores, no son triviales, y los explicaremos en algún momento futuro.

Por defecto, los bitstreams nuevos se guardan en el assetstore 0 (es decir el especificado por la propiedad assetstore.dir) Para usar nuevos assetstores (cuando se nos está llenando el que usemos) hay que añadir un linea a dspace.cfg que referencie dónde deben ir los nuevos bitstreams:

assetstore.incoming = 1

Cuando se rearranque Tomcat, los nuevos envíos se archivarán en el assetstore especificado en assetstore.dir.1

Recordemos que además del fichero de contenido «tal cual» que se ingesta en el sistema, Dspace guarda una variedad de ficheros adicionales (los comentamos en este post).  Todos estos ficheros se almacenan en el assetstore en una estructura del tipo:

Clipboard05

 

Siguiendo con este mismo ejemplo,  la referencia de un ítem a «sus» ficheros se encuentra en la tabla bitstream, campo Internal_id. Así, por ejemplo, si me encuentro este identificador,  110832826281924074367996140570931140204, este fichero (bitstream, en nomenclatura dspace) se encuentra buscando los seis primeros dígitos del identificador, que indican en que Subdirectorio de tercer nivel está el item ( 11 >> 08 >> 32) y el nombre real del fichero será 826281924074367996140570931140204 (ha desaparecido toda referencia a xxx.pdf, y similar).

Clipboard07

p.d: Incidentalmente esto parece indicar que el límite máximo de un assetstore es referenciar/almacenar 100*100*100 bitstreams
p.d: Si tenemos mas de un assetstore, deberemos buscar el fichero en el assetstore indicado en el campo bitstream.store_number de la tabla bitstream.