miércoles 5 de noviembre de 2008

Agentes que utilizan la topología de la red

HITS. Algoritmo desarrollado en el marco del proyecto CLEVER de IBM.

Ante una consulta de un usuario construye un conjunto raíz formado por las paginas localizadas por un motor de búsqueda tradicional.

Considera dos categorías de paginas web: autoridades e índices. Donde una autoridad (buena) es una pagina referenciada por un alto numero de índices y un índice (bueno) es una pagina que hace referencia a un alto numero de autoridades.

Funcionamiento:

• A cada pagina del conjunto raíz se le asignan unos pesos iniciales como índice y como autoridad de valor 1.
• Los pesos iniciales se van actualizando de forma que el peso de una pagina como autoridad se calculo como la sumo de los pesos de los índices que la apuntan.
• De la misma forma, los pesos de las paginas índices se calcula sumando los pesos de las autoridades a las que hacen referencia.
• El proceso converge rápidamente estabilizando los pesos que son utilizados para ordenar las paginas según su “prestigio”.

PageRank. Algoritmo desarrollado por Gogle.

Calcula la importancia de una pagina como la probabilidad de que navegando aleatoriamente por la red dicha pagina sea alcanzada y cuanto más enlaces apunten a una pagina mayor será la importancia de esta. Igualmente una pagina será importante si es referenciada por otra a la cual apuntan muchas paginas. El calculo de la importancia de las paginas se realiza para toda la red previamente a la fase de atención de consultas.

Google tiene sus propios “herbívoros” para rastrear la red y va construyendo su fichero invertido guardando mucha mas información de la habitual: posición exacta de la palabra en el texto, tipo de letra, uso de mayúscula, si es un titulo, si es un enlace a otro documento, una referencia a una imagen, un fichero, etc. Además Gogle almacena todos los enlaces entre paginas con el fin de luego utilizarlos para calcular la importancia de las paginas, así como el contenido de las pagina y el texto que acompaña a los enlaces a imágenes, archivos, etc. Esto ultimo posibilita la indexación de documentos que no sean textos.

Ante cualquier consulta Google utiliza su índice para localizar las paginas relevantes y las presenta al usuario ordenadas según su “prestigio”. El tiempo de respuesta es mínimo puesto que la parte más lenta del proceso se realiza previamente. Es mucho más difícil de manipular desde afuera que HITS.