Modelos basados en el lenguaje
Aunque todos los modelos mencionados anteriormente (vectorial, booleano, probabilístico y relevance feedback) son muy usados, hoy en día se está dando mucha importancia al procesamiento del lenguaje natural. Por tanto otro de los modelos a tener en cuenta es el que está
. Estos modelos se basan en una serie de conocimientos para conseguir descifrar e interpretar textos así como obtener un listado de descriptores de forma automática. Como muy bien sabemos, el lenguaje natural es el más ambiguo de todos los lenguajes y cada palabra según el contexto en el que se encuentra, puede significar gran variedad de cosas. Por eso se ayuda de lenguajes documentales de representación del conocimiento como los tesauros o las ontologías para tratar de descifrar el lenguaje natural. Si esto se relaciona con los documentos de la Web, se puede comprobar cómo existen otras técnicas (metadatos o lenguajes semánticos) para poder representar el conocimiento que contienen y poder recuperar información. Dentro de los lenguajes semánticos sin duda el más conocido es XML (eXternal Markup Language).
Si todos los documentos de la Web estuviesen estructurados, el proceso de recuperación de la información sería rápido y sencillo, pero esto por desgracia no ocurre así y existe un gran porcentaje de documentos desestructurados.
Modelos basados en redes de inferencia
Las redes de inferencia tienen dos fuentes de surgimiento: el modelo de recuperación probabilístico y las redes bayesianas. Dentro de una red de inferencia se pueden distinguir dos redes que la componen: red de consulta y red de documentos.
La red de consulta surge cuando el usuario en cuestión realiza su consulta. Esta red tiene dos tipos de nodos: de consulta y de términos (términos de los documentos). De cada nodo de término saldrán arcos (representados mediante flechas) que lo conectarán con los nodos de consulta correspondientes.
En cuanto a la red de documentos, se trata de una red fija, no varía. Está compuesta al igual que la anterior, por dos tipos de nodos: de términos y de documentos. Estos nodos se corresponden a los términos de los documentos y a los documentos en sí respectivamente. Por cada nodo de tipo documento salen arcos que los relacionan con los términos indexados.
Puesto que proviene del modelo probabilístico, el siguiente paso es calcular las probabilidades y una vez que se han estimado se realiza la inferencia, para lo cual se instancia cada documento de manera sucesiva y se calcula la probabilidad de que la consulta sea satisfecha con ese documento instanciado.
Este modelo introduce una serie de variables aleatorias que representan si la información requerida ha sido satisfecha. Estas variables aleatorias son binarias.
Que un determinado documento sea relevante viene determinado por el apoyo evidencial que una determinada observación (dj) da a la consulta (q). Se representa de la siguiente manera:
P(q^dj)
Esta página ha sido desarrollada para una asignatura de Ingeniería Informática de la Universidad Carlos III de Madrid, en concreto, Recuperación y Acceso a la Información.
Versiones disponibles:
Temas realizados:
Extracción y recuperación de información no supervisada
Usabilidad y accesibilidad en el posicionamiento y en la recuperación de información
Otros temas de interés:
Motores de Recuperación de documentos XML/RDF
Lenguajes de recuperación para la web I
Recuperación y organización de la información
Procesamiento del Lenguaje para recuperación de información
Sistemas de Question-Answering
Metadatos y documentos XML/RDF para su recuperación
Recuperación y Organización de la Información
Extracción de información con clasificación supervisada
Organización de información con clasificación no supervisada
Motores de recuperación de documentos XML/RDF