En este Capítulo se presentan las características de la Web y de la muestra estudiada, así como la metodología para recolectar documentos y efectuar diferentes análisis. También se presenta la estructura de este informe.
La Web es más que un simple conjunto de documentos en distintos servidores, ya que existen relaciones de información entre los documentos mediante los enlaces que establecen entre ellos. Esto presenta muchas ventajas, tanto para los usuarios, a la hora de buscar información, como para los programas que recorren la Web, a la hora de buscar contenido para recolectar (probablemente para un motor de búsqueda). Debido a esto se plantea que la Web sigue un modelo de grafo dirigido, en el que cada página es un nodo y cada arco representa un enlace entre dos páginas.
En general, una página enlaza a otras páginas similares [18], de modo que es posible reconocer páginas mejores que las demás, siendo estas últimas las que reciben un número mayor de enlaces que lo normal (o promedio). La web tiene una estructura que se puede clasificar como red libre de escala, que al contrario de las redes aleatorias, se caracterizan por una distribución dispareja de enlaces, en la que los nodos altamente enlazados actúan como centros que conectan muchos de los otros nodos a la red, como se ilustra en la Figura 1.1.
Analíticamente, la distribución dispareja de enlaces sigue una ley de potencias (power-law)1 :

Las redes libres de escala son auto-similares: una pequeña muestra mantiene características de la red completa (es decir, las características trascienden la escala con que se mire la red). Se muestra en este estudio que éste es el caso de la Web Chilena, que presenta características muy similares a la red mundial y a las redes de otros países, a pesar de contener menos de 1∕1250 de las páginas recolectables2 en la Web global, estimadas el 2005 en 11 × 109 páginas [22].
Ahora bien, ¿cómo se puede definir una web nacional? Se dice que es el conjunto de páginas relacionadas con un país, pero técnicamente es difícil distinguir si una página está asociada al país que se está estudiando. En este estudio se utiliza la heurística de asociar a Chile todos los sitios web con dominios .cl3, así como los dominios genéricos y extranjeros conocidos que, a la hora de realizar el estudio, se encuentren hospedados en direcciones IP asignadas a Chile.
La Web Chilena ha sido objetivo constante de estudio: se han estudiado sus características en los años 2000 [1], 2001-2002 [9], 2004 [3] y 2006 [6]. Asimismo, también existen estudios sobre otras webs nacionales:
A través de los años se ha comprobado que, si bien la web cambia (y crece) a una velocidad enorme, su estructura y sus propiedades se mantienen dentro de un rango de similitud.
La recolección fue realizada en el mes de Septiembre de 2007, utilizando el crawler WIRE [5]4 . Se utilizó un computador con una CPU Intel Pentium IV de 3 GHz, 1 GiB5 de RAM bajo sistema operativo Ubuntu Linux 7.04.
El funcionamiento del recolector es el siguiente: se comienza la descarga de un conjunto de direcciones iniciales, llamadas semillas o seeds, que en este caso son los dominios conocidos mencionados en la Sección anterior. De las páginas descargadas de esos dominios se extraen enlaces a nuevos sitios, que son agregados a una nueva lista de sitios por descargar, y el proceso se repite hasta que se han descargado todos los documentos posibles. El criterio para definir si se han descargado todos estos documentos depende de la configuración del crawler: pueden ser límites de espacio en el disco duro, de tiempo de recolección, de configuración de cantidad máxima de documentos a descargar, o a que simplemente no se encontraron más páginas públicas para descargar.
En total, en esta colecta se descargaron más de 9 millones de páginas web. La colección, con documentos comprimidos, utiliza 78 GiB de disco duro. De este espacio, 40 GiB corresponde al texto de los documentos, mientras que el espacio restante corresponde a meta-datos de los documentos, incluyendo 27 GiB conteniendo las direcciones de los documentos en formatos diferentes al HTML. Es necesario indicar que la cantidad de sitios descargados es de 200,000, pero el recolector reportó la existencia de sitios que no pudieron descargarse debido a que esa cifra era el límite máximo especificado en la configuración. Un mes después de la colecta se realizó una colecta secundaria, considerando solamente los sitios que tenían al menos un enlace entrante o saliente, con el fin de obtener una mejor caracterización en las tablas del Capítulo 3.
El Cuadro 1.1 resume las características principales de la colección.
|
|
La Web es una colección descentralizada, en la cual distintos autores pueden contribuir contenido por su cuenta sin una instancia de control que decida qué se publica y qué no. Esta es la principal ventaja de la Web desde el punto de vista de los usuarios, pero también es la principal causa de dificultades tanto para buscar información como para caracterizar colecciones de páginas.
Las siguientes anomalías constituyen violaciones de estándares o situaciones especiales que dificultan la caracterización de las páginas:
Esta técnica es conocida como URL Rewriting y su uso se ha extendido con la aparición de sistemas de administración de contenido (CMS, Content Management System). Entre sus consecuencias se encuentran: 1) no se puede distinguir si la página es estática o dinámica, 2) direcciones inválidas y mal formadas son procesadas como correctas, y 3) se recorren varias páginas que tienen el mismo contenido, ya que por lo general estas direcciones admiten varios parámetros diferentes para entregar una misma página (el identificador, el título, la sección dentro del sitio, la fecha, etc.). Como consecuencia, se recolectan sitios que tienen un tamaño mucho más grande del real, con más páginas que el promedio.
Ahora bien, las cifras en la colección de la Web Chilena, indican que no hay tanto contenido duplicado. Los documentos que son réplicas de otros son 503,145, un 5, 22 % del total de las páginas. Una inspección manual de la colección, en particular de los sitios con más páginas, entrega una gran cantidad de páginas que, si bien no son réplicas exactas, presentan el mismo contenido. Esto sucede principalmente en sitios de venta de productos, como pueden ser catálogos en línea o sitios de remates.
También se encuentra el spam que afecta a los sitios sociales, como blogs y foros, en los cuales el principal atractivo es la interacción de los usuarios. Usualmente existen robots que, intentando pasar por usuarios, publican comentarios con enlaces hacia sitios de dudoso origen.
Los distintos niveles de análisis posibles para la Web son los siguientes: el más pequeño es el de palabras o bloques de texto o imágenes, luego vienen las páginas y documentos, sub-sitios (unidades coherentes de múltiples páginas), sitios, dominios nacionales, y luego la web global. En este informe se sigue esta estructura, llegando hasta el estudio de la web nacional de Chile, a través de los siguientes Capítulos: