Especificación formal y manipulación inteligente de restricciones de integridad en datos semiestructurados

Proyecto Plan Nacional I+D TIN2007-65819.

El desarrollo de internet y las aplicaciones web ha producido un aumento del almacenamiento de la información en dispositivos sin la rígida estructura de una base de datos. Con ello ha crecido el interés por la traslación de los resultados de bases de datos hacia entornos de datos semiestructurados y, en especial, por el estudio de la especificación y manipulación de sus restricciones de integridad. Esta necesidad surge de la importancia de no perder expresividad en la semántica de los datos. Cabe destacar que las dependencias y asociaciones se han mostrado como una herramienta muy útil para dotar de semántica a los datos de estructuras relativamente sencillas o muy flexibles y que, por sus características, tienen limitada su capacidad de expresión semántica.

Por otro lado, estamos asistiendo a la implantación de leyes que obligan al almacenamiento de gran volumen de datos con estructura muy sencilla. Así, podemos citar el almacenamiento de datos de acceso a Internet para los proveedores ISP en España (2002), las llamadas telefónicas en la UE (2005), la circulación de vehículos en el Reino Unido (2006), etc. En estas legislaciones se contempla el uso compartido de estos datos por diferentes administraciones y países y su custodia durante un determinado periodo de tiempo. En este entorno es muy adecuado el uso de formatos de datos semiestructurados para un más sencillo y eficiente almacenamiento de éstos, para su integración y para el uso compartido por diferentes aplicaciones.

Proponemos aquí el desarrollo de técnicas formales para el tratamiento, en entornos de datos semiestructurados, de las relaciones entre datos en forma de asociaciones y dependencias. Pretendemos generar una nueva familia de lógicas que cubran diferentes tipos de restricciones: dependencias funcionales, dependencias de inclusión, claves, etc. Estas lógicas estarán fuertemente basadas en el paradigma de “substitución” desarrollado por el equipo y que ha demostrado ser clave para el desarrollo de métodos de deducción automática. Además de desarrollar estos métodos de deducción, se estudiará su implantación en el estilo de programación lógica. El uso de la lógica y el posterior desarrollo de técnicas de inferencia sobre ella nos permitirá disponer de una técnica con capacidad de deducir información de forma inteligente. Esta característica facilitará, además, la creación de herramientas software que solucionen problemas reales como los relativos a la integración de datos o la manipulación eficiente de éstos. En la propuesta se incluyen referencias a empresas que actuarán como entes promotores-observadores EPO con las que actualmente estamos trabajando y en donde pondremos en práctica los resultados teóricos obtenidos en dos sectores prioritarios: el sector turístico y el sector de las energías limpias y renovables.

Contenido relacionado: