Tratamiento de la incertidumbre en información semiestructurada distribuida (TIN2011-28084)

Proyecto Plan Nacional I+D TIN2011-28084

La comunidad científica ha aportado soluciones al tratamiento de la incertidumbre en bases de datos relacionales así como a la manipulación de datos en almacenes semiestructurados. Sin embargo, actualmente no se dispone de un consenso sobre la forma de abordar incertidumbre en entornos semiestructurados y, lo que es más importante, no sólo a un nivel aplicado, sino incluso a nivel de investigación básica. Por este motivo se hace necesario desarrollar un marco formal que integre el tratamiento de la información que dispone de cierto grado de incertidumbre o imprecisión en entornos no estructurados y que permita extender la investigación ya existente, generalizando ésta. Sobre este marco formal, queremos realizar el desarrollo de los aspectos teóricos y prácticos, construyendo teorías, métodos, técnicas y herramientas nuevas. Dicho desarrollo se hará utilizando técnicas de \emph{Soft-Computing}.

Nuestra propuesta se concreta en:

  • Estudiar los fundamentos para obtener un tratamiento unificado de la incertidumbre y la imprecisión en el almacenamiento de los datos con diversas características: datos estructurados o semi-estructurados, grandes cantidades de datos procedentes de mediciones científicas o sensores, datos procedentes de fuentes diversas heterogéneos, etc. Además se pretende incorporar también la imprecisión en el almacenamiento y el tratamiento de los datos. En este estudio de los fundamentos jugará un papel crucial la teoría conocida como Análisis de Conceptos Formales (FCA) y sus extensiones difusas.
  •  Diseñar lógicas y sistemas de inferencia para razonar sobre diversos tipos de dependencias o asociaciones entre atributos extendiendo las lógicas (crisp y difusas) ya desarrolladas por el equipo investigador, para el manejo de dependencias funcionales difusas. Prestaremos especial atención así a las relaciones entre datos, y no sólo al tratamiento aislado de los mismos. Nuestro objetivo es obtener herramientas que capturen la semántica de los datos. En este punto, generalizaremos la teoría de dependencias a web semántica y, en particular, a RDF Schema.
  •  Construir herramientas software para dar solución tecnológica a problemas reales como los relativos a la integración de datos o la manipulación eficiente de éstos. Por un lado, se espera poder desarrollar un método de tratamiento unificado de almacenes de datos heterogéneos basado en el uso de ontologías y el Análisis de Conceptos Formales. Por otro, sentar las bases para el diseño de herramientas para consulta, optimización y servicios de bases de datos basadas en técnicas de minería de datos y razonamiento automático con datos imprecisos.

En la propuesta se incluyen referencias a empresas que actuarán como entes promotores-observadores EPO con las que actualmente estamos trabajando y en donde pondremos en práctica los resultados teóricos. El trabajo con estas empresas ha permitido el desarrollo de productos que ya están en explotación.

Contenido relacionado: