viernes 28 de noviembre de 2008

Agentes adaptativos

Se consideran dos tipos fundamentales de adaptación al usuario:

 

1.      Selección de motores de búsqueda:

·        SawySearch.

2.      Selección de contenidos.

·        Syskill & Webert.

·        Letizia.

·        Multiagentes: Amalthaea e InfoSpiders.

 

 

SaviSearch

 

Metabuscador que aprende a seleccionar los  motores de búsqueda mas apropiados para cada tipo de consulta en cada momento, a diferencia de los motores tradicionales que consumen excesivos recursos al realizar búsquedas simultaneas sobre el mismo tema en la totalidad de los motores de búsqueda con los que trabajan. Utiliza motores generales y motores especializados.

 

Sus objetivos son:

·        Maximizar la probabilidad de devolver paginas relevantes.

·        Minimizar los recursos computacionales y la carga de red consumidos.

 

 

Se dedica a supervisar a los usuarios comprobando que enlaces sigue. Si un usuario sigue un enlace proporcionado por cierto motor de búsqueda, la confianza en ese motor para ese tema se refuerza. Por el contrario si un motor no devuelve ningún resultado ante una determinada consulta, la confianza decrece.

 

 

Sykill & Webert

 

Agente de software que aprende a identificar paginas relevantes para el usuario a partir de un perfil obtenido mediante la reglamentación y tiene como propósito construir el perfil a cada usuario por temas de interes. Para cada tema hay una URL que apunta a una pagina índice construida manualmente que contiene cientos de en laces a paginas relacionadas con el tema y a partir de unas cuantas paginas calificadas por el usuario, el agente aprende el perfil del usuario para ese tema.

 

Para su funcionamiento requiere que el usuario descargue todas las paginas accesibles desde la pagina índice y las almacene localmente, para luego procesar el texto de todas las paginas, hayan sido calificadas por el usuario o no.

 

 

miércoles 5 de noviembre de 2008

Agentes que utilizan la topología de la red

HITS. Algoritmo desarrollado en el marco del proyecto CLEVER de IBM.

Ante una consulta de un usuario construye un conjunto raíz formado por las paginas localizadas por un motor de búsqueda tradicional.

Considera dos categorías de paginas web: autoridades e índices. Donde una autoridad (buena) es una pagina referenciada por un alto numero de índices y un índice (bueno) es una pagina que hace referencia a un alto numero de autoridades.

Funcionamiento:

• A cada pagina del conjunto raíz se le asignan unos pesos iniciales como índice y como autoridad de valor 1.
• Los pesos iniciales se van actualizando de forma que el peso de una pagina como autoridad se calculo como la sumo de los pesos de los índices que la apuntan.
• De la misma forma, los pesos de las paginas índices se calcula sumando los pesos de las autoridades a las que hacen referencia.
• El proceso converge rápidamente estabilizando los pesos que son utilizados para ordenar las paginas según su “prestigio”.

PageRank. Algoritmo desarrollado por Gogle.

Calcula la importancia de una pagina como la probabilidad de que navegando aleatoriamente por la red dicha pagina sea alcanzada y cuanto más enlaces apunten a una pagina mayor será la importancia de esta. Igualmente una pagina será importante si es referenciada por otra a la cual apuntan muchas paginas. El calculo de la importancia de las paginas se realiza para toda la red previamente a la fase de atención de consultas.

Google tiene sus propios “herbívoros” para rastrear la red y va construyendo su fichero invertido guardando mucha mas información de la habitual: posición exacta de la palabra en el texto, tipo de letra, uso de mayúscula, si es un titulo, si es un enlace a otro documento, una referencia a una imagen, un fichero, etc. Además Gogle almacena todos los enlaces entre paginas con el fin de luego utilizarlos para calcular la importancia de las paginas, así como el contenido de las pagina y el texto que acompaña a los enlaces a imágenes, archivos, etc. Esto ultimo posibilita la indexación de documentos que no sean textos.

Ante cualquier consulta Google utiliza su índice para localizar las paginas relevantes y las presenta al usuario ordenadas según su “prestigio”. El tiempo de respuesta es mínimo puesto que la parte más lenta del proceso se realiza previamente. Es mucho más difícil de manipular desde afuera que HITS.