Modelo Probabilístico
Como su mismo nombre indica, este modelo se fundamenta en el cálculo de la probabilidad de que el documento sea relevante para la consulta realizada. Por tanto si cogemos un documento cualquiera entre un conjunto de m documentos, existe una cierta probabilidad de que dicho documento sea relevante para la pregunta realizada. Se tienen que analizar las características que hacen a un documento ser relevante.
La fórmula para obtener la probabilidad de ser relevante sería:
P(relevancia) = m / N, donde m es el conjunto de documentos relevantes y N es el conjunto de todos los documentos.
Para calcular la relevancia se utilizan una serie de pesos dados a las características del documento. Para saber la relevancia se usan índices de los términos que se conocen como descriptores con los pesos que se han establecido. Con esto se pretende recuperar los documentos en los que existen los mejores descriptores de los que el usa en la consulta.
Puesto que usa pesos, se puede calcular un determinado grado de relevancia y con el cual los resultados obtenidos pueden ser ordenados como sucedía en el modelo vectorial o en el booleano extendido.
El principal problema de este modelo es el hecho de que necesite una hipótesis para comenzar su ejecución y mediante la que se inicialicen los documentos relevantes así como los pesos. Además de esto como contabiliza el número de términos que aparecen y los supone independientes hace que todo el cálculo de estimación de probabilidades iniciales sea complejo.
Relevance feedback
Este modelo reescribe la consulta realizada por el usuario a partir de los documentos que relevantes obtenidos de una búsqueda inicial. Con esta reformulación se pretende obtener un conjunto de sultados más precisos, así como recalcular los pesos de los términos relevantes.
Como cada vez se obtienen resultados más relevantes los que van perdiendo relevancia irán siendo descartados.
La modificación de la consulta se puede hacer de dos formas: normal o automática. En la manual como su nombre indica, el usuario dirá cuáles son los documentos más relevantes. En la automática se eligen asumiendo que los n primeros son los relevantes.
El algoritmo seguido para obtener los documentos más relevantes es el de Rocchio.
Mediante esta técnica se pretende llevar la consulta realizada hacia los documentos relevantes. Los resultados de este modelo son muy buenos ya que mejora en un alto grado la recuperación de documentos relevantes para la consulta realizada.
Sin embargo si existe una palabra mal escogida en la consulta hará que los resultados sean peores.
Esta página ha sido desarrollada para una asignatura de Ingeniería Informática de la Universidad Carlos III de Madrid, en concreto, Recuperación y Acceso a la Información.
Versiones disponibles:
Temas realizados:
Extracción y recuperación de información no supervisada
Usabilidad y accesibilidad en el posicionamiento y en la recuperación de información
Otros temas de interés:
Motores de Recuperación de documentos XML/RDF
Lenguajes de recuperación para la web I
Recuperación y organización de la información
Procesamiento del Lenguaje para recuperación de información
Sistemas de Question-Answering
Metadatos y documentos XML/RDF para su recuperación
Recuperación y Organización de la Información
Extracción de información con clasificación supervisada
Organización de información con clasificación no supervisada
Motores de recuperación de documentos XML/RDF