miércoles 22 de octubre de 2008

Otros agentes de información

Buscadores especializados.

Son los que utilizan estrategias y heurísticas muy especializadas y dependientes de su dominio de aplicación. Aprovechan la información contextual derivada de su especialización para mejorar su indexación y los resultados de las búsquedas. Ejemplos: Ahoy (buscador de paginas personales), CiteSeer (agente utonomo para la localización de publicaciones en la web), WebFind (localizador de artículos científicos).


Buscadores que utilizan la topología de la red.

Son los que utilizan la característica semántica de la web, al considerarla como una inmensa red semántica en la cual la información no solo esta en los nodos sino también en los enlaces. Son considerados buscadores no convencionales ya que hacen uso de la información estructural y los mas empleados, utilizan algoritmos de búsqueda relacionados con el “factor de impacto” que es la medida más habitual para establecer el prestigio de una publicación. Ejemplos: HITS (proyecto CLEVER) y PageRank (buscador Google).


Agentes adaptativos.

Los buscadores mencionados anteriormente siempre realizan los mismos procesos para todos los usuarios. Si se quiere que sean verdaderos agentes, deben, entonces, incorporar capacidades de aprendizaje para poder adaptarse al usuario y al entorno.

Para ello necesita incorporar un modelo de usuario que se vaya conformando de acuerdo a las actividades que realiza el usuario y la retroalimentacion de la relevancia de la información. Son agentes que se van adaptando al usuario.

Los clasificaremos en dos tipos:
• Selección de motores de búsqueda. Ejemplo: SavySearch.
• Selección de contenidos: Ejemplo: Syskill & Weber, Letizia y los que trabajan como multiagentes: Amalthaea, InfoSpiders, etc.

jueves 9 de octubre de 2008

Buscadores: "Herbivoros y carnivoros"

Motores de búsqueda.

Son los “herbívoros de la información. Procesan el texto de todas las paginas que visitan eliminando las palabras presentes en las listas de parada y extrayendo raíces.


Para cada pagina calculan su vector de pesos de términos basados en un modelo TFIDR y construyen una tabla en la que para cada pagina web se guardan los términos presentes en la pagina cuyo peso supere cierto umbral y a partir de la tabla anterior, construyen un fichero invertido, un índice cuya entrada son los términos y de los que obtenemos la lista de paginas en las que aparecen dichos términos. Este índice es el que se utiliza después para atender las consultas de los usuarios.

Los motores de búsqueda deben estar continuamente rastreando la red para actualizar sus índices. Ejemplos: Altavista, Webcrawler, etc.


Metabuscadores.

Son los “carnívoros” de la información que se alimentan de los motores de búsqueda, también se denominan buscadores parásitos.

Disponen de una interfaz única que permite al usuario establecer su consulta y que esta sea enviada simultáneamente a distintos motores de búsqueda. Se ocupan de recoger y fusionar los resultados obtenidos de los distintos motores y presentárselos al usuario de forma uniforme.

Los metabuscadores mejoran considerablemente la búsqueda al simplificar la interacción con el usuario al cubrir distintos segmentos de la web. Ejemplos: Metacrawler, Profusion, Metasearch etc.

martes 7 de octubre de 2008

Recuperación de información.

Es la disciplina que se ocupa de la gestión de información en grandes bases de datos documentales, fundamentalmente estáticas y concentradas en único lugar.

Y su metodología de trabajo en la siguiente: Ante una pregunta del usuario, el sistema devuelve un subconjunto del espacio de información considerado “relevante” para la pregunta. El usuario evalúa los ítems de información y vuelve a preguntar de forma más concisa, lo cual le permite ir refinando las preguntas o introducir una nueva pregunta y comenzar nuevamente el proceso de refinamiento. La relevancia se determina a través de técnicas de análisis de frecuencia de palabras claves.


Determinación de la relevancia de la información

Modelo del espacio vectorial.
Dada una colección de N documentos de texto en los cuales aparece un total de T términos distintos, se representa cada documento por un vector de T componentes, cada uno de los cuales representa el peso del correspondiente termino en dicho documento.

dj = ( w1j, w2j,... wtj )

La similitud entre dos documentos o entre una consulta y un documento, se determina calculando el coseno del ángulo que forman sus vectores de términos. Para ello se calcula su producto escalar y se divide por el producto de sus módulos.

TFDF (term frecuency inverse document frecuency). Modelo de asignación de los pesos a cada termino.

El peso de un termino i en el documento j debe medir la importancia que dicho termino tiene para caracterizar al documento j

wij = tfij  log( N / dfi )

wij : peso del termino i en el documento j.
tfij : numero de apariciones el termino i en el documento j.
N : numero total de documentos.
dfi : numero de documentos en los que aparece el termino i.