|
Experimento 1
de crawling: Resumen del sitio
usando RDF
|
Objetivo
El objetivo de este experimento es medir el
impacto de cooperación en el lado del
servidor durante el proceso de crawling.
Descripción
Para este experimento, el servidor Web
generará un archivo RDF conteniendo la
URL y la fecha de última
modificación de cada archivo en su
directorio Web público. El crawler
descargará este archivo para chequear
cambios diariamente durante un mes, y si
presenta cambios, descargará tambien los
archivos modificados.
Cada sitio web será visitado dos veces
al día: una vez por un crawler normal, y
otra vez por un crawler que pueda interpretar
el archivo RDF.
Los numeros totales de bytes transferidos
diariamente serán comparados.
Requerimientos
Los sitios Web deberían tener
más de 100 páginas.
Deberían también tener al menos 5
cambios o 5 páginas nuevas cada mes.
Se requiere que el administrador del sitio Web
instale un script en Perl, y configure su
crontab para ejecutar el programa
diariamente. Este programa generará una
lista en XML con los nombres de archivo y las
fechas de última modificación. Se
proveerán instrucciones de
instalación. No se requiere acceso
especial al sitio Web, puesto que la lista en
XML estará en un directorio
público.
Sólo pueden participar en este
experimento servidores basados en UNIX/LINUX.
|