Modelo Vectorial
También conocido como modelo de espacio vectorial. Dentro de este modelo, los documentos son representados utilizando un vector en el que se recogen las relaciones existentes entre el documento y sus características.
Para obtener las características que ayudan a la formación del vector, se utilizan las ocurrencias encontradas de algunas palabras significativas dentro del texto.
Con estos datos se realiza la representación vectorial que será usada en las consultas para recuperar la información. La forma de recuperar la información es comparando este vector con los vectores de los documentos. Se usa una función de similitud. El grado de similitud varía según la consulta que se realice. Cuanto mayor es el grado se considera que más se ajusta a la petición.
Con este modelo se pueden obtener los documentos de forma ordenada y se puede limitar el número de resultados si se considera un grado de similitud mínimo.
Modelo Booleano
Se trata de uno de los modelos de recuperación de la información más simples que se conocen. Se fundamenta en el álgebra de Boole y en la teoría de conjuntos. Si el modelo vectorial convertía las consultas a un vector de características, este modelo crea una expresión booleana para formalizar la consulta. Esta expresión utiliza los operadores booleanos AND, OR y NOT.
A la hora de recuperar la información, un documento tendrá más relevancia que otro teniendo en cuenta si una palabra está presente o no es decir:
- Si se encuentra la palabra: La contiene.
- Si se encuentran las dos palabras: palabra1 AND palabra2.
- Si se encuentra una sí y otra no: palabra1 AND NOT palabra2.
- Si se encuentra o una o la otra: palabra1 OR palabra2.
Estas combinaciones varían según el número de palabras a buscar.
Dependiendo de los operadores booleanos que unan las palabras a buscar, se recuperarán unos documentos u otros, puesto que no es lo mismo buscar palabra1 AND palabra2 (tiene que aparecer ambas) que buscar palabra1 OR palabra2 (aparece o una o la otra).
El problema de este modelo es que si encuentra una serie de documentos, no sabe ordenarlos según la relevancia que tenga cada uno. Para solucionarlo se puede utilizar el modelo booleano extendido que añade pesos a las palabras buscadas lo que le lleva a aproximarse a un modelo vectorial.
Esta página ha sido desarrollada para una asignatura de Ingeniería Informática de la Universidad Carlos III de Madrid, en concreto, Recuperación y Acceso a la Información.
Versiones disponibles:
Temas realizados:
Extracción y recuperación de información no supervisada
Usabilidad y accesibilidad en el posicionamiento y en la recuperación de información
Otros temas de interés:
Motores de Recuperación de documentos XML/RDF
Lenguajes de recuperación para la web I
Recuperación y organización de la información
Procesamiento del Lenguaje para recuperación de información
Sistemas de Question-Answering
Metadatos y documentos XML/RDF para su recuperación
Recuperación y Organización de la Información
Extracción de información con clasificación supervisada
Organización de información con clasificación no supervisada
Motores de recuperación de documentos XML/RDF