Introducción

Los tesauros documentales son un tipo de lenguaje combinatorio que consta de listas de términos que representan un ámbito científico y técnico determinado y que posee una serie de relaciones semánticas entre los términos que lo conforman. Estas relaciones semánticas son de tres tipos concretos: equivalencia, asociación y jerarquía. Este tipo de lenguajes documentales cuentan con una gran flexibilidad y capacidad de especialización, lo que los hace muy útiles en entornos de Recuperación de Información (RI) como Internet. La definición más aceptada de tesauro es la de un lenguaje documental de estructura combinatoria, de carácter especializado, que se basa en expresiones conceptuales llamadas descriptores, provistas de la citadas relaciones semánticas.

Existen varias normas internacionales que establecen las directrices para la construcción de tesauros, entre las que destacan la ISO 2788-1986 y su posterior evolución Z39.19-1993. Según estas normas los tesauros son realmente instrumentos de control terminológico en entornos de RI, y aunque se pueden encontrar ciertas analogías con otros recursos como las ontologías, la estructura de los tesauros suele ser más mucho más simple y menos definida que la de las ontologías.

La utilización de tesauros documentales en entornos de RI viene siendo una constate desde hace muchos años. Pese a esto, los procesos de automatización de la RI no siempre han incluido estas herramientas para la desambigüación y normalización semántica de los términos utilizados, como demuestran el gran número de aplicaciones de RI que se basan únicamente en cálculos de tipo estadístico y análisis de frecuencias de aparición de términos como las distintas variantes que existen del TF-IDF.

No obstante, existen algunos proyectos de RI en los que se ha trabajado con recursos lingüísticos informatizados para tareas se desambigüación. Ejemplo de esto es la profusión con la que se ha utilizado Wordnet durante los años 90 para la realización de este tipo de tareas. El uso de tesauros documentales, aunque más restringido, también está presente en este tipo de proyectos, y es por esta razón por la que consideramos de interés la migración de este tipo de recursos a los procesos de RI basados en Internet.

La RI en Internet es un proceso que tiende a realizarse de forma distribuida, con lo que es interesante que la integración de tesauros documentales en este proceso se adapte a este tipo de arquitecturas. Esta adaptación puede concebirse de distintas formas. En el caso que aquí nos ocupa, proponemos la definición de un servicio de información que permita la utilización distribuida de tesauros mediante una aplicación específica destinada a servir de interfaz entre el tesauro y la aplicación que necesite hacer uso de él. La idea es la de permitir el uso transparente del tesauro a todas aquellas aplicaciones de RI que necesiten hacer uso de él de la misma forma que trabajan los Servicios Web. Para realizar estas tareas debemos automatizar el tesauro e implementar las funcionalidades básicas de acceso y consulta del tesauro.

Para la realización de este experimento se ha utilizado el tesauro Spines, en su versión española, publicada por el CINDOC¹, aunque el sistema se ha pensado para que pueda trabajar con cualquier tesauro que cumpla la norma ISO-2788.

root 2004-06-12