Capítulo 1
Introducción

En este Capítulo se presentan las características de la Web y de la muestra estudiada, así como la metodología para recolectar documentos y efectuar diferentes análisis. También se presenta la estructura de este informe.

1.1. ¿Cómo es la Web?

La Web es más que un simple conjunto de documentos en distintos servidores, ya que existen relaciones de información entre los documentos mediante los enlaces que establecen entre ellos. Esto presenta muchas ventajas, tanto para los usuarios, a la hora de buscar información, como para los programas que recorren la Web, a la hora de buscar contenido para recolectar (probablemente para un motor de búsqueda). Debido a esto se plantea que la Web sigue un modelo de grafo dirigido, en el que cada página es un nodo y cada arco representa un enlace entre dos páginas.

En general, una página enlaza a otras páginas similares [18], de modo que es posible reconocer páginas mejores que las demás, siendo estas últimas las que reciben un número mayor de enlaces que lo normal (o promedio). La web tiene una estructura que se puede clasificar como red libre de escala, que al contrario de las redes aleatorias, se caracterizan por una distribución dispareja de enlaces, en la que los nodos altamente enlazados actúan como centros que conectan muchos de los otros nodos a la red, como se ilustra en la Figura 1.1.


PIC
(a) Red Aleatoria.
PIC
(b) Red Libre de Escala
Figura 1.1: Ejemplos ilustrativos de una red aleatoria y una red libre de escala. Cada grafo tiene 32 nodos y 32 enlaces.

Analíticamente, la distribución dispareja de enlaces sigue una ley de potencias (power-law)1 :

                 - θ
Pr (Γ (p) = k) ≈ k
Esto quiere decir que la distribución de los enlaces es muy sesgada: unas pocas páginas reciben muchos enlaces mientras que la mayoría recibe muy pocos o incluso ninguno. En este estudio se muestra que dicha distribución se puede aplicar a muchos aspectos de la Web, de los cuales se dice “que siguen una ley de Zipf ”. El nombre de esta distribución se debe a Kingsley Zipf, que en 1932 enunció la distribución que modela la frecuencia de aparición de las palabras en los textos [37]. Cuando estas distribuciones se representan en un gráfico con escala logarítmica se obtiene una línea recta, tal como se observa en muchos de los gráficos de este estudio.

1.2. Estudiando la Web de un país

Las redes libres de escala son auto-similares: una pequeña muestra mantiene características de la red completa (es decir, las características trascienden la escala con que se mire la red). Se muestra en este estudio que éste es el caso de la Web Chilena, que presenta características muy similares a la red mundial y a las redes de otros países, a pesar de contener menos de 11250 de las páginas recolectables2 en la Web global, estimadas el 2005 en 11 × 109 páginas [22].

Ahora bien, ¿cómo se puede definir una web nacional? Se dice que es el conjunto de páginas relacionadas con un país, pero técnicamente es difícil distinguir si una página está asociada al país que se está estudiando. En este estudio se utiliza la heurística de asociar a Chile todos los sitios web con dominios .cl3, así como los dominios genéricos y extranjeros conocidos que, a la hora de realizar el estudio, se encuentren hospedados en direcciones IP asignadas a Chile.

La Web Chilena ha sido objetivo constante de estudio: se han estudiado sus características en los años 2000 [1], 2001-2002 [9], 2004 [3] y 2006 [6]. Asimismo, también existen estudios sobre otras webs nacionales:

A través de los años se ha comprobado que, si bien la web cambia (y crece) a una velocidad enorme, su estructura y sus propiedades se mantienen dentro de un rango de similitud.

1.3. Recolección de páginas

La recolección fue realizada en el mes de Septiembre de 2007, utilizando el crawler WIRE [5]4 . Se utilizó un computador con una CPU Intel Pentium IV de 3 GHz, 1 GiB5 de RAM bajo sistema operativo Ubuntu Linux 7.04.

El funcionamiento del recolector es el siguiente: se comienza la descarga de un conjunto de direcciones iniciales, llamadas semillas o seeds, que en este caso son los dominios conocidos mencionados en la Sección anterior. De las páginas descargadas de esos dominios se extraen enlaces a nuevos sitios, que son agregados a una nueva lista de sitios por descargar, y el proceso se repite hasta que se han descargado todos los documentos posibles. El criterio para definir si se han descargado todos estos documentos depende de la configuración del crawler: pueden ser límites de espacio en el disco duro, de tiempo de recolección, de configuración de cantidad máxima de documentos a descargar, o a que simplemente no se encontraron más páginas públicas para descargar.

En total, en esta colecta se descargaron más de 9 millones de páginas web. La colección, con documentos comprimidos, utiliza 78 GiB de disco duro. De este espacio, 40 GiB corresponde al texto de los documentos, mientras que el espacio restante corresponde a meta-datos de los documentos, incluyendo 27 GiB conteniendo las direcciones de los documentos en formatos diferentes al HTML. Es necesario indicar que la cantidad de sitios descargados es de 200,000, pero el recolector reportó la existencia de sitios que no pudieron descargarse debido a que esa cifra era el límite máximo especificado en la configuración. Un mes después de la colecta se realizó una colecta secundaria, considerando solamente los sitios que tenían al menos un enlace entrante o saliente, con el fin de obtener una mejor caracterización en las tablas del Capítulo 3.

El Cuadro 1.1 resume las características principales de la colección.




Páginas Web 9.637.801




Texto en Total 135,76 [GiB]
Texto promedio por página 15.124,68 [B]


Sitios Web Estudiados 200.000
Páginas promedio por sitio 48,19
Texto promedio por sitio 728.843,12 [B]


Dominios 190.577
Sitios promedio por dominio 1,05
Páginas promedio por dominio 50,57
Texto promedio por dominio 764.880,47 [B]

Cuadro 1.1: Resumen de estadísticas de la colecta.

1.4. Dificultades en la caracterización de la Web

La Web es una colección descentralizada, en la cual distintos autores pueden contribuir contenido por su cuenta sin una instancia de control que decida qué se publica y qué no. Esta es la principal ventaja de la Web desde el punto de vista de los usuarios, pero también es la principal causa de dificultades tanto para buscar información como para caracterizar colecciones de páginas.

Las siguientes anomalías constituyen violaciones de estándares o situaciones especiales que dificultan la caracterización de las páginas:

Parámetros en la URL y URL Rewriting
: existen páginas que tienen direcciones más largas de lo que realmente deberían ser. Esto se debe a que entregan sus parámetros en la dirección de la página como si fuera la ruta de acceso a ella, lo que contradice el estándar de URLs [12], puesto que los parámetros de invocación de programas deberían aparecer en la URL después de un signo “?”, por ejemplo:

Esta técnica es conocida como URL Rewriting y su uso se ha extendido con la aparición de sistemas de administración de contenido (CMS, Content Management System). Entre sus consecuencias se encuentran: 1) no se puede distinguir si la página es estática o dinámica, 2) direcciones inválidas y mal formadas son procesadas como correctas, y 3) se recorren varias páginas que tienen el mismo contenido, ya que por lo general estas direcciones admiten varios parámetros diferentes para entregar una misma página (el identificador, el título, la sección dentro del sitio, la fecha, etc.). Como consecuencia, se recolectan sitios que tienen un tamaño mucho más grande del real, con más páginas que el promedio.

Réplicas de contenido
: Constituye una práctica habitual en la Web el tener varias copias distribuidas geográficamente de los mismos documentos. Normalmente lo que se replica son colecciones completas de gran volumen, y se hace por motivos de eficiencia. Las colecciones más frecuentemente replicadas en la Web son [16]: el sitio de software Tucows, el proyecto de documentación de Linux (LDP), la documentación del servidor web Apache y la documentación del lenguaje de programación Java. La información replicada se estima entre un 20 % y un 40 % del total en la Web.

Ahora bien, las cifras en la colección de la Web Chilena, indican que no hay tanto contenido duplicado. Los documentos que son réplicas de otros son 503,145, un 5, 22 % del total de las páginas. Una inspección manual de la colección, en particular de los sitios con más páginas, entrega una gran cantidad de páginas que, si bien no son réplicas exactas, presentan el mismo contenido. Esto sucede principalmente en sitios de venta de productos, como pueden ser catálogos en línea o sitios de remates.

Spam en general
: El Spam en la Web se refiere a acciones orientadas a engañar a los sistemas de búsqueda en la Web y a dar algunas páginas una posición más alta de la que merecen en el resultado de una búsqueda en un motor de búsqueda [23]. Estas acciones incluyen cambios en el texto, en los meta-datos o en los enlaces de las páginas si es que el visitante es un robot recolector.

También se encuentra el spam que afecta a los sitios sociales, como blogs y foros, en los cuales el principal atractivo es la interacción de los usuarios. Usualmente existen robots que, intentando pasar por usuarios, publican comentarios con enlaces hacia sitios de dudoso origen.

1.5. Organización de este informe

Los distintos niveles de análisis posibles para la Web son los siguientes: el más pequeño es el de palabras o bloques de texto o imágenes, luego vienen las páginas y documentos, sub-sitios (unidades coherentes de múltiples páginas), sitios, dominios nacionales, y luego la web global. En este informe se sigue esta estructura, llegando hasta el estudio de la web nacional de Chile, a través de los siguientes Capítulos:

Capítulo 2, Documentos:
se presenta la Web Chilena a nivel de páginas y documentos. Se estudian tanto las páginas web como los documentos en formatos diferentes a HTML. También se estudia el vocabulario presente en los documentos.
Capítulo 3, Sitios:
se presenta la Web Chilena a nivel de sitios. Se estudia la estructura de grafo de la web, y se enumeran los sitios con más documentos, con mayor tamaño y con mayor cantidad de enlaces entrantes y salientes. Se muestran los proveedores que tienen la mayor cantidad de sitios.
Capítulo 4, Dominios:
se presenta la Web Chilena a nivel de dominios. Se estudia la relación por enlaces entre dominios, los dominios con más sitios y con mayor tamaño. Se estudian las direcciones IP y servidores que hospedan los dominios. También se estudia la relación entre el dominio nacional y los dominios extranjeros en términos de enlaces.
Capítulo 5, Conclusiones:
se presentan las conclusiones de este informe.