Es la disciplina que se ocupa de la gestión de información en grandes bases de datos documentales, fundamentalmente estáticas y concentradas en único lugar.
Y su metodología de trabajo en la siguiente: Ante una pregunta del usuario, el sistema devuelve un subconjunto del espacio de información considerado “relevante” para la pregunta. El usuario evalúa los ítems de información y vuelve a preguntar de forma más concisa, lo cual le permite ir refinando las preguntas o introducir una nueva pregunta y comenzar nuevamente el proceso de refinamiento. La relevancia se determina a través de técnicas de análisis de frecuencia de palabras claves.
Determinación de la relevancia de la información
Modelo del espacio vectorial.
Dada una colección de N documentos de texto en los cuales aparece un total de T términos distintos, se representa cada documento por un vector de T componentes, cada uno de los cuales representa el peso del correspondiente termino en dicho documento.
dj = ( w1j, w2j,... wtj )
La similitud entre dos documentos o entre una consulta y un documento, se determina calculando el coseno del ángulo que forman sus vectores de términos. Para ello se calcula su producto escalar y se divide por el producto de sus módulos.
TFDF (term frecuency inverse document frecuency). Modelo de asignación de los pesos a cada termino.
El peso de un termino i en el documento j debe medir la importancia que dicho termino tiene para caracterizar al documento j
wij = tfij log( N / dfi )
wij : peso del termino i en el documento j.
tfij : numero de apariciones el termino i en el documento j.
N : numero total de documentos.
dfi : numero de documentos en los que aparece el termino i.
martes 7 de octubre de 2008
Suscribirse a:
Enviar comentarios (Atom)
0 comentarios:
Publicar un comentario en la entrada