martes 7 de octubre de 2008

Recuperación de información.

Es la disciplina que se ocupa de la gestión de información en grandes bases de datos documentales, fundamentalmente estáticas y concentradas en único lugar.

Y su metodología de trabajo en la siguiente: Ante una pregunta del usuario, el sistema devuelve un subconjunto del espacio de información considerado “relevante” para la pregunta. El usuario evalúa los ítems de información y vuelve a preguntar de forma más concisa, lo cual le permite ir refinando las preguntas o introducir una nueva pregunta y comenzar nuevamente el proceso de refinamiento. La relevancia se determina a través de técnicas de análisis de frecuencia de palabras claves.


Determinación de la relevancia de la información

Modelo del espacio vectorial.
Dada una colección de N documentos de texto en los cuales aparece un total de T términos distintos, se representa cada documento por un vector de T componentes, cada uno de los cuales representa el peso del correspondiente termino en dicho documento.

dj = ( w1j, w2j,... wtj )

La similitud entre dos documentos o entre una consulta y un documento, se determina calculando el coseno del ángulo que forman sus vectores de términos. Para ello se calcula su producto escalar y se divide por el producto de sus módulos.

TFDF (term frecuency inverse document frecuency). Modelo de asignación de los pesos a cada termino.

El peso de un termino i en el documento j debe medir la importancia que dicho termino tiene para caracterizar al documento j

wij = tfij  log( N / dfi )

wij : peso del termino i en el documento j.
tfij : numero de apariciones el termino i en el documento j.
N : numero total de documentos.
dfi : numero de documentos en los que aparece el termino i.