Centro de Investigación de la Web
D.C.C. - Universidad de Chile




La Web Chilena 2004

Ricardo Baeza-Yates
Carlos Castillo

 
Centro de Investigación de la Web
Departamento de Ciencias de la Computación
Universidad de Chile




Documento completo, para descargar e imprimir
(33 páginas, 2.8 MB)

E-Mail: rbaeza (a) dcc.uchile.cl

Resumen Ejecutivo

En Diciembre del 2004 recorrimos la Web chilena usando el sistema WIRE, desarrollado en el CIW. Los siguientes puntos resumen algunos de los principales hallazgos de este estudio:

Respecto a la calidad de las páginas y sitios:

Respecto a las tecnologías Web:


Índice General

Introducción

Durante 4 días del mes de Diciembre del 2004, se utilizó el crawler WIRE 2 para descargar páginas de la Web chilena. Se utilizó un PC de escritorio con un procesador de 3GHz y 1Gb de memoria RAM, corriendo Debian Linux. La utilización total de red fue de 50 Gigabytes descargados y 600 Mb de datos enviados al solicitar las páginas.

La definición que usamos de Web Chilena son todas aquellos sitios del dominio .cl y todos los sitios que están hospedados en direcciones IP asignadas a Chile. Para los sitios .cl, contamos con el apoyo de NIC Chile para obtener la lista completa de dominios para fines de investigación.

El Cuadro 1 resume las características principales de la colección estudiada.


Tabla 1: Resumen de la colección estudiada

Páginas Web 3.254.137  
Estáticas 2.007.793 61,7%
Dinámicas 1.246.344 38,30%
Únicas 3.078.494 64,61%
Duplicadas 175.643 5,39%

 

Dominios 47.469  
Sitios 53.528  
Páginas estáticas por sitio 34,59  
Páginas dinámicas por sitio 23,05  
Páginas totales por sitio 57,64  


El proceso de recolección comienza con una lista de direcciones iniciales, y luego descarga páginas siguiendo enlaces hasa por 5 niveles de enlaces para páginas dinámicas, y hasta 15 niveles para páginas estáticas. Además, limitamos la recolección sólo a páginas HTML, descartando imágenes y otros objetos multimedia, y bajamos hasta un límite de 200KB por página y hasta 5.000 páginas por sitio.

La Web puede analizarse de muchas maneras distintas, para este estudio, hemos separado el análisis de la siguiente forma: la sección 2 discute las características de las páginas Web analizadas individualmente. La sección 3 se refiere a las características de los sitios Web. Las secciones 4 y 5 analizan los enlaces entre páginas y sitios respectivamente, y la sección 6 presenta nuestras conclusiones.


Características de las páginas Web

Páginas descargadas versus enlaces rotos

El recolector de páginas funciona extrayendo direcciones de las páginas descargadas, y es frecuente que entre estas direcciones aparezcan páginas que ya no existen o son simplemente direcciones erróneas. Cada vez que el recolector se contacta con un servidor Web, el servidor retorna un código de estado que indica si la página existe o no, o si hay algún otro motivo por el cuál no se puede encontrar la página pedida.

La Figura 1 muestra la distribución de páginas de acuerdo a estos códigos de estado. En la figura, hemos consolidado varios códigos para mayor claridad, que enumeramos a continuación con su equivalente en el estándar HTTP:

Figura 1: Distribución del código de estado HTTP.
Image http_code

En todos nuestros experimentos, usualmente obtenemos entre 75% y 85% de transferencias exitosas. La proporción de enlaces rotos, sobre 6%, es significativa. Esto significa que el control de calidad sobre los sitios no es suficientemente acucioso para la tasa de cambio de la Web, y los enlaces no son revisados con la frecuencia necesaria.

Largo de la URL

Estudiamos el largo de las direcciones (URL - Universal Resource Locator) encontradas. En la Figura 2 se observa que la distribución de estos largos puede ser modelada mediante una distribución log-normal, que tiene la siguiente función de densidad de probabilidad

3#3

con los parámetros 4#4 (posición) 5#5 (escala), y 6#6 (forma).

Figura 2: Distribución del largo de las URLs.
Image model

Tamaño de las páginas

Para evitar saturar excesivamente nuestro ancho de banda, bajamos solamente los primeros 200 KB de cada página. El centro de la distribución de los tamaños de página sigue una ley de Zipf con parámetro 7#7 , como se muestra en la figura 3. Cerca de los 200 KB el número de páginas se ve más alto del esperado debido a la manera en que se limitó el tamaño de página.

Figura 3: Distribución del tamaño de las páginas.
Image raw_content_length_kb

Observamos que por debajo de los 12 Kb, hay menos páginas de las predichas por la ley de Zipf. Estimamos que esto se debe a una limitación al escribir HTML; este lenguaje de marcado no fue diseñado para ser sucinto, e incluso un texto muy breve requiere una cierta cantidad de marcado. Esto se debe a que HTML se usa más como un lenguaje orientado a la presentación, con mucho código dedicado a formatear los atributos de las páginas y por lo tanto crece rápidamente especialmente para diseños complejos. Por esta razón, en esta zona la distribución es en general una log-normal [BYN04].


Edad de las páginas

Para determinar la edad de las páginas, observamos la fecha de última modificación entregada por los servidores Web para cada página. En algunos casos esta fecha es errónea, por ejemplo: corresponde a una fecha en el futuro, o a una fecha muy antigua, previa a la invención de la Web. Esto se debe a servidores que no tienen sus relojes actualizados a la hora actual. Observamos que en un 83% de los casos los sitios Web retornan fechas de última modificación válidas.

La distribución de las edades de las páginas en términos de meses y años se muestra en la Figura 4.

Figura 4: Distribución de la edad de las páginas. Nótese que para el gráfico de edad de las páginas en meses la escala es semi logarítmica.
Image age_years Image age_months

Los cambios de páginas exhiben una distribución exponencial, como se ve en el gráfico de edad de páginas en meses. Nótese que aproximadamente el 25% de las páginas fueron creadas o modificadas en el último año, lo que indica que la Web chilena continúa creciendo a una tasa muy alta.


Profundidad de las páginas

La profundidad lógica de una página es el número de enlaces que es necesario seguir desde la portada de un sitio para alcanzarla. La portada de un sitio entonces tiene profundidad 0, las páginas directamente alcanzables desde la portada profundidad 1, y así sucesivamente.

Como se mencionó anteriormente, limitamos al recolector para que descargue solamente 5 niveles para páginas dinámicas, y sólo 15 niveles para páginas estáticas. La distribución de páginas por profundidad se muestra en la Figura 5.

Figura 5: Distribución de páginas a diferentes profundidades.
Image depth

La distribución de páginas estáticas sigue una forma cuyo máximo está en el quinto nivel, pero la distribución de páginas dinámicas no decrece al aumentar la profundidad. Esto es porque las páginas dinámicas tienen enlaces a otras páginas dinámicas, creando sitios Web con el potencial de crear un número infinito de páginas. En experimentos previos, cuando hemos limitado el número de páginas por sitio a 25.000 en vez de 5.000, se aprecia que la cantidad de páginas dinámicas crece exponencialmente a cada nivel.

Páginas dinámicas

Cerca del 38% de las páginas descargadas eran páginas dinámicas. La aplicación más usada para generarlas es PHP 3, seguida de ASP 4y páginas generadas usando Java ((.jhtml y .jsp). La distribución de muestra en la Figura 6.

Figura 6: Distribución de enlaces a páginas dinámicas
Image cgi

PHP, una tecnología de código abierto, claramente domina el mercado. Las páginas dinámicas son construidas principalmente usando técnicas de pre-procesamiento de hipertextos (PHP, ASP, JHTML, ColdFusion), en que los comandos para generar el contenido dinámico, como accesos a bases de datos, están incrustados en documentos que son principalmente código HTML.

Debe ser considerado también que algunas de las páginas que se ven como páginas estáticas, incluso con terminación .html, son en realidad generadas automáticamente usando procesamiento por lotes, con sistemas de administración de contenidos, así que hay otras tecnologías de contenido dinámico que pueden estar faltando en este análisis.

Documentos que no están en HTML

Encontramos 370.000 enlaces a archivos que no eran HTML, pero que tenían extensiones que son comúnmente usadas para documentos. El formato Adobe PDF (Portable Document Format) es el más ampliamente usado y el estándar de facto, seguido de texto plano y Microsoft Word. La distribución se muestra en la Figura 7.

Figura 7: Distribución de enlaces a documentos, excluyendo enlaces a páginas HTML.
Image doc

A pesar del hecho de que Microsoft Windows es el sistema operativo más usado, los tipos de archivo asociados con aplicaciones de Microsoft Office como Word o Excel no son tan usados como uno esperaría, probablemente porque pueden contener virus y porque hay pérdida de formato porque las tipografías no están incrustadas en los documentos.

Hay más de 30.000 archivos XML en la Web chilena, incluyendo archivos con extensiones DocBook, SGML, XML y RDF. En nuestra opinión, esta cantidad de archivos sugiere que vale la pena bajar estas páginas XML en el futuro y analizarlas, puesto que podrían ser valiosas desde el punto de vista de un buscador Web.

Audio, vídeo e imágenes

Hay muchos enlaces a archivos multimedia, incluyendo más de 80 millones de enlaces a imágenes, 50.000 enlaces a archivos de audio, y 8.000 enlaces a archivos de vídeo. La distribución de formatos de archivo de estos enlaces se muestra en la Figura 8.

Figura 8: Distribución de enlaces a archivos multimedia en la Web chilena.
Image media

Los formatos Realaudio y MP3 son los más usados para audio, y se usan frecuentemente para streaming en radios por Internet. En el caso del vídeo, no está claro que haya un formato dominante, y hay relativamente muy pocos vídeos en la Web chilena, aproximadamente 1 vídeo por cada 1.000 imágenes.

Como una aplicación de caracterización de imágenes por contenido, en [BYRdSV+04] analizamos las imágenes de la Web chilena en detalle. Encontramos que aproximadamente 2/3 de las páginas tienen imágenes, y que un 80% de las imágenes son bastante pequeñas, de menos de 50 pixeles en su lado mayor. Durante el análisis, se ejecutó un algoritmo de detección de caras que encontró que alrededor de un 2% de las imágenes contienen caras de personas, con un promedio de 2,1 personas por cada foto en la que aparecen personas.

A continuación, separamos las páginas en dos grupos: portadas de sitios Web y páginas interiores. Encontramos varias diferencias entre los dos grupos. En las portadas de sitios Web, un 40% de las imágenes aparece más de una vez en la misma página, lo que es común para elementos gráficos como fondos, viñetas o bordes; por otra parte, en las páginas interiores, un 90% de las imágenes se repite más de una vez en alguna parte del sitio.

Además, en las páginas interiores hay relativamente menos imágenes GIF y más imágenes JPEG, posiblemente debido a que estas últimas normalmente son fotografías y por tanto son más grandes y lentas de descargar, por lo que no se encuentran con tanta frecuencia en las portadas. En total el formato GIF es el dominante, seguido de JPEG. EL formato PNG que fue concebido como un reemplazo del GIF, aún no es muy usado.

Finalmente, analizamos la prevalencia de animaciones Flash, encontrando que alrededor del 7% de las portadas usa este tipo de animaciones, mientras que son relativamente raras en las páginas interiores, apareciendo en aproximadamente un 2% de las páginas.


Software y código fuente

Encontramos enlaces a 30.000 archivos con extensiones usadas para código fuente, y 600.000 archivos con extensiones usadas para programas. Lo último no cuenta software que es distribuido en archivos comprimidos como .tar o .zip. La distribución de los enlaces se muestra en la Figura 9.

Figura 9: Distribución de enlaces a código fuente y paquetes de programas.
Image software

Nótese que el número de archivos que contienen paquetes de software para distribuciones de Linux dobla el número de paquetes de software para Windows; una posible explicación es que en Linux una aplicación usualmente está compuesta de varios paquetes. A pesar de esto, se ve que existe un nivel comparable de disponibilidad de software para ambas plataformas.

Los repositorios de software usualmente mantienen copias en varios sitios, por lo que hay gran cantidad de contenido duplicado. Nosotros utilizamos un método de detección de duplicados a priori, que evita bajar páginas desde una página que sea duplicada, esto nos permitió descargar menos de un 6% de páginas duplicadas.

Archivos comprimidos

Encontramos 140.000 archivos con extensiones usadas para archivos empaquetados o comprimidos, y su distribución de muestra en la Figura 10.

Figura 10: Distribución de enlaces a archivos comprimidos.
Image compress

La extensión GZ, usada por el programa GNU gzip, es la extensión más común, seguida de ZIP. En ambos casos estos archivos probablemente incluyen paquetes de software que no están considerados en la Figura 9.


Características de los sitios Web

Definimos un sitio Web como el nombre del servidor que aparece en una URL, por ejemplo, en una dirección como:

       http://www.example.com/directory/page.html
El sitio Web correspondería a www.example.com. Aplicamos además la heurística de que tanto www.example.com y example.com se consideran como el mismo sitio. Verificamos que de todos los sitios recorridos, 1.653 de ellos (3%) tienen alguna versión del mismo nombre pero en otro dominio con el mismo número IP (por ejemplo com, net, org, info, etc.).

Número de páginas

Observamos un promedio de 57 páginas por sitio. Este número obviamente depende del número máximo de páginas que escogimos bajar, en este caso 5.000. La moda es mucho más pequeña que el promedio y la distribución del número de páginas por sitio Web es muy sesgada, como se muestra en la Figura 11. Esta distribución se puede modelar con una ley de potencias (power-law) con parámetro 8#8 .

Figura 11: Distribución del número de páginas por sitio Web.
Image site_cumulative_count_doc Image site_count_doc

Para detectar cuáles son específicamente los sitios más grandes, realizamos una segunda recolección, esta vez solamente de páginas estáticas, con un límite de páginas por sitio 10 veces mayor, es decir, 50.000 páginas máximo por sitio.

Encontramos 17 sitios con 50 mil o más páginas estáticas y sólo otros dos sitios sobrepasaron las 4 mil páginas. Agrupamos los sitios por dominio, y los más grandes que encontramos se muestran en el Cuadro 2. Entre estos sitios encontramos principalmente directorios Web, sitios de descarga de software, proveedores de acceso a Internet, medios informativos y universidades.


Tabla 2: Dominios con mayor número de páginas estáticas, con límite máximo de 50.000 páginas por sitio.
Dominio Número de páginas Dominio Número de páginas
terra 112.172 linuxcenter 32.560
hispavista 96.460 rlz 30.930
tucows 76.199 experimentos 29.169
utfsm 56.381 dmoz 25.744
tripod 49.973 lacuarta 24.747
4a 49.906 vision 23.686
panoramasonline 49.800 puc 22.264
cooperativa 49.249 canal13 19.026
lapapa 46.344 buceo 18.755
uandes 44.919 ubiobio 18.004
educarchile 41.384 quepasa 16.733
uchile 40.195 sectorvitacura 13.799
educalibre 39.835 diariopyme 13.022
udec 35.987 syachile 12.213
macintosh 33.388 uc 10.885

Sitios Web con una sóla página

Por otra parte, hay muchos nombres de dominio que son registrados con el solo propósito de reservar el nombre para usarlo después. Por ejemplo, aproximadamente sólo la mitad de los dominios registrados bajo .CL tienen un sitio Web, y de ellos, el 40% de los sitios tiene sólo una página, así que sólo 1/4 de los sitios Web son sitios propiamente tales, con al menos dos páginas. A pesar de que el número de sitios en la Web chilena se ha duplicado en los últimos tres años, la fracción de sitios Web con sólo una página ha permanecido relativamente constante.

Analizando estos 21.450 sitios de los cuales el recolector sólo obtiene una página, se observa que en su mayoría corresponden a sitios cuya navegación depende completamente de animaciones Flash o programas en Javascript (y en mucha menor medida en applets en Java). Estos dos casos suman el 58% de los sitios, como se muestra en la Figura 12. Estos sitios son inaccesibles para la mayoría de los programas de búsqueda de las máquinas de búsqueda en la Web, lo que hace que sus páginas sean más difíciles de encontrar y por lo tanto incide negativamente sobre la cantidad de visitantes que reciben estos sitios.

Figura 12: Distribución de los sitios con una sola página.
Image one_page

Por otra parte, efectivamente hay sitios que solamente tienen una página sin ningún enlace (19%), o que solo contienen una redirección o un enlace a algún sitio externo (23%), en su mayoría se trata de sitios ``en construcción''. Por inspección manual observamos que algunos de ellos han estado en construcción por un período considerable de tiempo.

Tamaño de las páginas en un sitio Web completo

El tamaño promedio de un sitio Web completo, considerando solamente las páginas HTML, es de aproximadamente 0,8 Megabytes. Esto es sólo una pequeña fracción de la información total, puesto que las imágenes constituyen una parte importante de la información disponible en la Web. La distribución del tamaño total de páginas por sitios en términos de bytes es muy sesgada también, como puede verse en la Figura 13. Es incluso más sesgada que la distribución del número de páginas, pues el 10% de los sitios más grandes contiene más del 95% de la información medida en bytes.

Figura 13: Suma de los tamaños de las páginas por sitio.
Image site_cumulative_raw_content_length Image site_raw_content_length_mb
.

Al igual que en el caso del número de páginas, agrupamos los sitios por dominio para detectar cuáles son los dominios que tienen la mayor cantidad de información en forma de texto, que son los que aparecen en el Cuadro 3. La lista incluye a muchos de los sitios que también aparecían entre los sitios con más páginas del Cuadro 2.


Tabla 3: Dominios con mayor cantidad de texto, en MiB.
Dominio Tamaño [MiB] Dominio Tamaño [MiB]
hispavista 2.669 uchile 458
terra 2.646 udec 427
cooperativa 1.479 lacuarta 373
tucows 1.416 diariopyme 365
educarchile 1.262 camara 346
buceo 832 sectorvitacura 305
tripod 815 uandes 273
utfsm 786 1host 240
educalibre 714 quepasa 235
4a 684 dmoz 221
panoramasonline 657 lufthansa 218
linuxcenter 605 canal13 210
rlz 563 sectorlascondes 193
lapapa 535 puc 188
macintosh 469 vision 175

Profundidad máxima

Tal como se definió anteriormente, la página inicial de un sitio Web tiene profundidad 0, y el nivel de cada página siguiente es el número de ``clicks'' que es necesario hacer para llegar a esa página.

La mayoría de los sitios Web son muy poco profundos, como se muestra en la Figura 14. La profundidad máxima promedio de los sitios Web es 9#9 . Más del 90% de los sitios pueden ser recorridos haciendo menos de 4 clicks desde la portada, lo que es consistente con [BYC04].

Figura 14: Profundidad máxima acumulada a distintos niveles.
Image maxdepth
.

En el Cuadro 4 analizamos sólo páginas estáticas y agrupamos los sitios por dominio (promediando en el caso de dominios con varios sitios), mostrando los dominios que tienen una mayor profundidad máxima. Es importante notar que en algunos casos, hay sitios que al navegarlos siguiendo enlaces resultan bastante profundos, pero que sin embargo tienen rutas más cortas para acceder a la información. Por ejemplo, en ocasiones se puede llegar a una página muy profunda simplemente ingresando datos mediante un formulario. Es por esto que estas páginas a las que se accede mediante formularios se denominan también Web profunda (Deep Web[RGM01]).


Tabla 4: Dominios con mayor profundidad de enlaces.
Dominio Profundidad Dominio Profundidad
buceo 50 educarchile 28
icann 50 oxfam 26
lanacion 50 hispavista 24
cepchile 50 udec 23
umag 48 alosnoopy 23
canal13 45 uc 22
portaldearte 42 utfsm 22
c5 42 bcentral 21
vpu 39 unap 19
linux 36 iglesia 19
lacuarta 33 lufthansa 19
uchile 32 puc 18
icarito 30 syachile 18
panoramasonline 28 utem 18
sii 28 uai 17

Edad

Medimos la edad de los sitios Web, observando la edad de la página más antigua, así como de la página más reciente y la página promedio. La edad de la página más antigua es una cota inferior en qué tan viejo es un sitio, mientras que la edad de la página más nueva es una cota superior en qué tan frecuentemente el sitio Web es actualizado. Los resultados se muestran en la Figura 15.

Figura 15: Edad de los sitios Web estudiados.
Image age

De acuerdo a estas cifras, cerca del 55% de los sitios Web fueron creados este año, y cerca de 3/4 de los sitios Web en los últimos 2 años. Esto es otra indicación de que la Web chilena continúa creciendo a un ritmo muy acelerado.

Dominios y sitios por dirección IP

Definimos dominio como el dominio de segundo nivel en el nombre de un sitio Web, por ejemplo:

http://www.fcfm.uchile.cl/
http://machi.med.uchile.cl/

corresponden ambas al dominio uchile.cl.

Los dominios con más sitios se muestran en el Cuadro 5. Podemos notar que en los primeros lugares aparecen proveedores de Internet y universidades, quedando más atrás los sitios de gobierno, donde la abreviación de ``gobierno'' en inglés .gov es más frecuentemente usada que la abreviatura en castellano .gob.


Tabla 5: Dominios con la mayor cantidad de sitios
Dominio Número de sitios Dominio Número de sitios
tripod.cl 765 udec.cl 75
uchile.cl 333 gov.cl 75
co.cl 301 canal13.cl 73
corp.cl 230 utalca.cl 61
scd.cl 224 gob.cl 57
tie.cl 122 malldechile.cl 56
puc.cl 122 123.cl 54
utfsm.cl 107 ubiobio.cl 50
ucv.cl 107 terra.cl 48
usach.cl 91 ucn.cl 46


Respecto a las direcciones IP, y dado que lo más común es que cada servidor tenga sólo una dirección IP, estudiamos cuantos sitios hay por dirección IP como una aproximación de cuántos sitios son servidos por cada servidor. En promedio, cada dirección IP que tiene un servidor Web atiende a 3,4 sitios distintos, y la mayoría de los sitios tiene su propia dirección IP.

Sin embargo, encontramos más de 90 direcciones IP que tienen más de 100 sitios cada una, e incluso 2 direcciones IP con más de 1000 sitios cada una. La distribución de sitios por IP se muestra en la Figura 16 y exhibe una ley de potencias con parámetro 1,8.

Figura 16: Distribución del número de sitios por dirección IP.
Image nsites_nips

La observación de que existen muchas sitios Web atendidos por unas pocas IPs, nos lleva a utilizar el servicio de DNS reverso para averiguar cuál es el nombre simbólico asociado a esas IP. Esto permite obtener una lista en la cuál se observan cuales son los proveedores de Internet que cuentan con un mayor número de sitios (notar que pueden ser de distintos dominios, pero que están hospedados en el mismo servidor). El Cuadro 6 considera sólo sitios que es posible contactar y que tienen al menos una página Web.


Tabla 6: Proveedores con mayor número de sitios
Proveedor Número de sitios
tie.cl. 3220
virtuabyte.com. 3165
entelchile.net. 1740
tchile.com. 1634
lycos.com. 745
tecnoera.com. 705
puntoweb.cl. 636
netline.cl. 544
manquehue.net. 544
uchile.cl. 501
uplink.cl. 451
red7.net. 447
ifxnw.cl. 434
latlink.net. 361
gtdinternet.com. 354

Servidores Web por dirección IP

De acuerdo con Netcraft5la aplicación para servidor Web más usado es Apache con un 70% de participación de mercado, y la segunda aplicación más usada es Microsoft IIS (Internet Information Server) con un 20%. En la Figura 17 mostramos esta distribución para la Web Chilena, en el cual se observa una tendencia similar, aunque con una presencia ligeramente mayor de sitios usando IIS que en la muestra global.

Figura 17: Software y sistema operativo usado como servidor Web.
Image brand Image os
.

Además, en la misma figura observamos la distribución de sistemas operativos, en la que Unix y Linux tienen un 65% de participación, además, al comparar los dos gráficos podemos inferir que al menos 1/5 de los servidores basados en Windows usan Apache.


Enlaces

Una característica central de las páginas Web es que pueden contener enlaces o hiper vínculos a otras páginas. En el caso de la Web, estos enlaces conforman una estructura que se denomina red libre de escala.

Las redes libres de escala, al contrario de las redes aleatorias, se caracterizan por una distribución dispareja de enlaces. Estas redes han sido el tema de una serie de estudios de Barabási [Bar02] entre otros, y se caracterizan como redes en las cuales la distribución del número de enlaces 10#10 sigue una ley de potencias (power-law):

11#11 (1)

Las redes libres de escala se caracterizan por tener unos pocos nodos altamente enlazados que actúan como centros que conectan muchos de los otros nodos a la red. La diferencia entre una red libre de escala y una red aleatoria se muestra en la Figura 18.

Figura 18: Ejemplos de una red aleatoria y una red libre de escala. Cada grafo tiene 32 nodos y 32 enlaces.
Image figRandomNetwork

Las redes libres de escala son, a su vez, auto-similares, en el sentido de que una pequeña muestra de la red tiene propiedades de la red completa. Este es el caso de la Web chilena, que a pesar de contener menos de 1/1000 (un milésimo) de las páginas disponibles en el mundo, presenta características muy similares a la red completa.

Grado

Se denomina grado de una página al número de enlaces que entran o salen de una página. El número de enlaces que entran se denomina grado interno y el número de enlaces que salen se denomina grado externo.

La distribución de enlaces es muy sesgada y unas pocas páginas tienen grado muy alto. La distribución del grado interno es mucho más sesgada que la distribución del grado externo, como se muestra en la Figura 19: tener una página con muchos enlaces que apunten a ella es obviamente más difícil que tener una página con muchos enlaces apuntando a otras páginas.

Figura 19: Distribución del grado interno y el grado externo.
Image cumulative_in_degree Image in_degree
Image cumulative_out_degree Image out_degree

Existe una correlación entre el grado externo de las páginas y el tamaño de éstas, puesto que una página no puede tener demasiados enlaces si es muy pequeña, como se muestra en la Figura 20.

Figura 20: Tamaño de las páginas versus número de enlaces.
Image content_length_out_degree

Puntajes usando algoritmos de análisis de enlaces

Existen varios algoritmos de análisis de enlaces que intentan inferir, para cada página en la Web, qué tan importante es esa página, utilizando la información de los enlaces que apuntan a cada página. Comparamos la distribución de Pagerank [PBMW98] con una variación del algoritmo HITS [Kle99], en el cual usamos la Web completa como el conjunto de análisis; esto último puede verse como una versión estática de HITS.

El algoritmo Pagerank obtiene para cada página un puntaje, que refleja qué tantos enlaces recibe esa página desde otras páginas con un alto número de enlaces. De alguna manera es una medida de la cantidad y calidad de los enlaces recibidos.

El algoritmo de HITS obtiene para cada página dos puntajes: Hub y Authority. El puntaje Hub indica qué tan buena es la página como recurso de enlaces, en términos de qué tan buenos son los enlaces que tiene hacia otras páginas. El puntaje Authority indica qué tan buena es la página como recurso de información, en términos de qué tan buenos son los enlaces que recibe.

La distribución de los puntajes puede verse en la Figura 21.

Figura 21: Distribución de Pagerank, y los puntajes Hubs y Authority.
Image cumulative_pagerank Image pagerank
Image cumulative_hubrank Image hubrank
Image cumulative_authrank Image authrank

Por la forma en que se calcula Pagerank, usando saltos aleatorios dentro del procedimiento de cálculo, incluso páginas con muy pocos enlaces entrantes tienen un valor de Pagerank no-nulo. Por otra parte, una página necesita ``buenos'' enlaces para tener un puntaje Hub o Authority no-nulo, de manera tal que solo el 12% de las páginas tienen un valor Hub y sólo un 3% de las páginas un valor Authority.

En la Figura 22 se muestra el puntaje obtenido por las páginas con mayor puntaje de enlaces (los puntajes son independientes entre sí, de manera que la página con mayor puntaje Pagerank no es necesariamente la página con mayor puntaje Hub.

Figura: Puntaje obtenido por el 0,1% mejor de las páginas para cada función de análisis de enlaces.
Image spanish_linkscore_last0_1

No observamos que exista correlación entre los puntajes de análisis de enlaces que medimos, como se muestra en la Figura 23 en la cual aparece una muestra aleatoria de 10.000 documentos, descartando los de la muestra que tuvieran puntaje de enlaces cero.

Figura 23: No se observa una correlación significativa entre Pagerank, puntaje Hub y puntaje Authority.
Image pagerank_authrank Image pagerank_hubrank
Image hubrank_authrank

Enlaces a otros dominios fuera de .CL

Encontramos más de 700.000 enlaces hacia páginas en otros países. Los 20 países más referenciados se muestran en el Cuadro 7.


Tabla 7: Fracción de enlaces a los 20 dominios externos más referenciados.
Dominio Porcentaje de enlaces Dominio Porcentaje de enlaces
COM 68,020% MX - México 0,499%
NET 10,648% NO - Noruega 0,405%
ORG 9,146% NL - Holanda 0,368%
BR - Brasil 2,838% CO - Colombia 0,366%
AR - Argentina 1,828% TK - Tokelau 0,249%
ES - España 1,502% VE - Venezuela 0,231%
UK - Reino Unido 1,148% JP - Japón 0,213%
DE - Alemania 0,800% FR - Francia 0,202%
CX - Christmas Island 0,678% IT - Italia 0,181%
EDU 0,517% GOV 0,162%

La mayoría de los países en el Cuadro 7 son países latino americanos, pero hay también enlaces hacia dominios grandes como .COM o .DE. También la presencia de ciertos enlaces que son usados por motivos comerciales, como CX y TK.

Usamos datos de comercio exterior la División de Estadísticas de las Naciones Unidas6, y comparamos esto con el número de enlaces encontrados. Los resultados se muestran en la Figura 24. Hay una relación significativa entre el número de enlaces y el volumen de exportaciones e importaciones, y las desviaciones más significativas de esta regla se aprecian para los países asiáticos, que posiblemente debido a una barrera de lenguaje están más conectados con nosotros en términos de intercambio comercial que en la Web.

Figura 24: Relación entre el número de enlaces externos desde sitios Web chilenos y el monto de las exportaciones e importaciones.
Image import_enlaces
Image export_enlaces


Enlaces entre sitios Web

En lo siguiente, consideraremos los enlaces entre sitios Web. Un enlace entre dos sitios Web representa uno o varios enlaces entre sus páginas, preservando dirección. Esto significa que si existe al menos un enlace entre, por ejemplo www.A.cl/paginaA.html y www.B.cl/paginaB.html, entonces diremos que existe un enlace entre www.A.cl y www.B.cl. Los enlaces a páginas dentro del mismo sitio no son considerados.


Tabla 8: Resumen de las características de los enlaces entre sitios Web.
Sitios Web Descargados 53.529  
Por lo menos un enlace hacia el sitio 24.973 47%
Por lo menos un enlace desde el sitio 17.039 32%
Por lo menos un enlace (hacia o desde) otro sitio 30.444 57%

Las características de los enlaces entre sitios de la Web chilena se resumen en el Cuadro 8.

Número de enlaces entre sitios

La distribución del grado interno y externo en los sitios Web también revela una red libre de escala, como se muestra en la Figura 25. Los gráficos acumulados consideran solamente los sitios Web con al menos un enlace. Estos resultados son similares a la Web completa [BKM+00].

Figura 25: Distribución número de enlaces entre sitios.
Image site_cumulative_in_degree Image site_in_degree
Image site_cumulative_out_degree Image site_out_degree

Suma de los puntajes por enlaces

Estudiamos los puntajes que presentamos en la Figura 21 y los sumamos por sitios Web, obteniendo una medida de calidad para cada sitio. El resultado se encuentra en la Figura 26. Una acotación importante es que las mejores páginas de la Web se distribuyen en muchos más sitios (por ejemplo el 3% de páginas que tienen buena autoridad se distribuyen en casi el 70% de los sitios).

Figura 26: Distribución del Pagerank, puntaje Hub y puntaje Authority en el grafo de sitios Web.
Image site_cumulative_sum_pagerank Image sum_pagerank
Image site_cumulative_sum_hubrank Image sum_hubrank
Image site_cumulative_sum_authrank Image sum_authrank

Componentes fuertemente conectados

En un grafo, se dice que una parte del grafo es una componente conexa si es posible ir desde cualquier nodo de esa parte a cualquier otro nodo dentro de la misma parte. Se dice que una parte del grafo es una componente fuertemente conexa si esto es posible respetando la dirección de los enlaces. Dentro de una parte fuertemente conexa, es posible ir desde cualquier sitio a cualquier sitio siguiendo enlaces. No toda la Web chilena es fuertemente conexa.

Estudiamos la distribución de los tamaños de las componentes fuertemente conexas (CFC) en el grafo de sitios Web. Una componente fuertemente conexa gigante aparece, tal como fue observado por Broder y otros [BKM+00]. Esta es una marca típica de una red libre de escala. La distribución de los tamaños de las componentes fuertemente conexas se presenta en el Cuadro 9 y la Figura 27.


Tabla 9: Tamaño de las componentes fuertemente conexas.
Tamaño de la componente Número de componentes
1 44.449
2 323
3 59
4 14
5 9
6 4
7 2
8 1
12 2
8.085 (Componente gigante) 1


Figura 27: Distribución de las componentes fuertemente conexas.
Image scc_sizes

Estructura de enlaces entre sitios Web

En [BYC01] extendimos la notación introducida por Broder y otros [BKM+00] para analizar la estructura de la Web, dividiendo la componente MAIN en cuatro partes:

(e)
MAIN-MAIN, que son los sitios que pueden ser alcanzados directamente desde la componente IN o que pueden alcanzar directamente la componente OUT;
(f)
MAIN-IN, que son los sitios que pueden ser alcanzados directamente desde IN pero no están en MAIN-MAIN;
(g)
MAIN-OUT, que son los sitios que pueden alcanzar directamente a OUT pero no pertenecen a MAIN-MAIN;
(h)
MAIN-NORM, que son los sitios que no pertenecen a las subcomponentes definidas anteriormente.

Nótese que los sitios Web en la componentes IN e ISLANDS se encuentran sólo accesando directamente la página principal de esos sitios, puesto que no son alcanzables siguiendo enlaces. Esto es posible porque contamos con una lista completa de dominios registrados bajo .cl al momento de realizar estos estudios. La distribución de sitios Web en componentes se muestra en la Figura 28. Esta estructura evoluciona con el tiempo, como fue estudiado en [BYP03,BYP04].

Figura 28: Estructura macroscópica de la Web.
Image figBowTieFull

Nombre de la componente Tamaño
MAIN_NORM 4,90%
MAIN_MAIN 3,64%
MAIN_IN 1,54%
MAIN_OUT 5,03%
IN 6,65%
OUT 26,12%
TIN 2,08%
TOUT 3,66%
TUNNEL 0,23%
ISLAND 46,16%

.

Conectividad de los dominios más referenciados

Los 15 sitios más referenciados se muestran en el Cuadro 10. Hay una presencia muy fuerte de sitios de gobierno en los primeros lugares, así como de universidades.


Tabla 10: Sitios Web con mayor número de enlaces desde otros sitios. El tipo de sitio se indica con una letra (G: Gobierno, E: Educación, C: Comercial).
  Nombre del sitio Tipo Referencias
sii.cl Servicio de Impuestos Internos G 715
uchile.cl Universidad de Chile E 687
hits.e.cl Contador de acceso C 649
(la)tercera.cl Diario La Tercera C 643
mineduc.cl Ministerio de Educación G 612
meteochile.cl Servicio de Meteorología G 569
tripod.cl Espacio Web gratuito C 502
puc.cl Universidad Católica E 486
google.cl Máquina de búsqueda C 448
bcentral.cl Banco Central G 437
udec.cl Universidad de Concepción E 433
terra.cl Terra Networks C 433
corfo.cl Corporación de Fomento de la Producción G 422
conicyt.cl Comisión Nacional de Investigación Científica y Tecnológica C 390
gobiernodechile.cl Portal de Gobierno G 383


Representamos gráficamente los dominios que reciben más enlaces en la Web chilena. En la Figura 29, hemos separado los dominios más referenciados en tres grupos: gobierno (rombos), comercial (rectángulos) y educacional (elipses).

El gráfico fue construido usando graphviz7, que mediante un modelo de resortes encuentra una configuración que acerca los sitios que tienen más enlaces entre sí. Hemos representado por el grosor de las líneas la cantidad de enlaces.

Figura 29: Enlaces entre dominios por tipo [zoom].
Image DomainGraph

Observamos que los dominios del mismo tipo tienden a agruparse juntos, y hay algunas particularidades interesantes: entre los dominios de tipo educacional, hay muchas conexiones, mientras que entre los dominios comerciales bastante menos. Los dominios de gobierno tienen una conectividad que está entre estos dos extremos. Adicionalmente, una serie de instituciones de gobierno y privadas relacionadas con la educación (arriba a la izquierda en la figura) tienden a agruparse juntas.


Conclusiones

En este estudio, hemos analizado varias características de una muestra grande de la Web chilena, y la mayoría de esas características comprueban que la distribución de calidad en la Web es muy sesgada. Esto es bueno desde el punto de vista de un buscador Web, porque solo unas pocas de las páginas tienen alguna relevancia, pero también es malo porque hay una gran cantidad de páginas que son probablemente irrelevantes.

Todos los usuarios que han navegado un cierto tiempo por la Web tienen una percepción de cómo es ésta. Esta percepción está basada en lo que ven cuando interactúan con la Web usando una herramienta usual: un navegador. El comportamiento de distintos usuarios involucra distintas partes de la Web, pero en la mayoría de los casos se limita a unos pocos sitios de alta importancia con tópicos como noticias, compras o correo electrónico leído a través de la Web.

La mayoría de los usuarios no van muy profundo dentro de los sitios Web. Esto significa que hay miles o millones de páginas que son visitadas muy rara vez, o que son visitadas casi nunca. Cuando se caracteriza la Web, es necesario olvidarnos de lo que hemos visto al navegar, porque lo que se ve a través de un navegador es sólo la superficie de algo mucho más profundo. Por ejemplo, hay páginas muy grandes o muy pequeñas, páginas con miles de enlaces y páginas con sólo uno, y así sucesivamente.

Además de este fenómeno, nuestros resultados también muestran que los formatos dominantes son los formatos estándar como PDF o texto plano y las herramientas de código abierto como PHP y GZIP, lo cual es parte de la misma naturaleza de la Web.

Agradecimientos

Agradecemos a Felipe Ortiz, quien realizó los análisis de sitios de una sola página y direcciones IP, y trabajó en los gráficos de correlación con comercio exterior.

Anexo: Conceptos básicos y terminología

El siguiente glosario incluye términos básicos de Internet en general, que son usados en este documento:

Internet
es el nombre que recibe la red de computadores global. En esta red, los distintos computadores se conectan para realizar diversas tareas.
Dirección IP
es un número que identifica a cada computador conectado a Internet.
Nombre de computador
es un nombre que se asocia a una dirección IP (ej.: ``www.todocl.cl'' o ``www.fcfm.uchile.cl'').
Dominio
es una forma de agrupar nombres (ej.: ``.cl'' o ``uchile.cl'')
Ley de Potencias o Zipf
Distribución de probabilidad de la forma 12#12 donde 13#13 es el parámetro de la distribución.
Servicio
es una operación que se puede realizar entre dos computadores en Internet. Ejemplos: correo electrónico, chat en línea, World Wide Web.
Servidor
es un computador que está conectado a Internet y presta algún servicio.
World Wide Web
o simplemente Web es uno de los servicios que pueden prestar los computadores conectados a Internet.

La World Wide Web como servicio tiene su propia terminología:

URL
es una dirección en la Web, ej.: ``http://www.todocl.cl/stats.phtml''.
Sitio
es el nombre de un computador que actúa como servidor de páginas Web.
Página
es toda entidad en la Web que tiene una dirección.
Página estática
es toda página que existe previamente a ser solicitada. Por ejemplo, la portada de TodoCL es una página estática.
Página dinámica
es toda página que es creada en el momento en que es solicitada. Por ejemplo, los resultados de una consulta son una página dinámica, porque el buscador no puede tener preparada una página para cada posible consulta.

Bibliografía

Bar02
Albert-László Barabási.
Linked: The New Science of Networks.
Perseus Books Group, May 2002.

BKM+00
Andrei Broder, Ravi Kumar, Farzin Maghoul, Prabhakar Raghavan, Sridhar Rajagopalan, Raymie Stata, Andrew Tomkins, and Janet Wiener.
Graph structure in the web: Experiments and models.
In Proceedings of the Ninth Conference on World Wide Web, pages 309-320, Amsterdam, Netherlands, May 2000. ACM Press.

BYC01
Ricardo Baeza-Yates and Carlos Castillo.
6298#>http://www.dcc.uchile.cl/Relating web characteristics with link based web page ranking.
In Proceedings of String Processing and Information Retrieval SPIRE, pages 21-32, Laguna San Rafael, Chile, 2001. IEEE CS Press.

BYC04
Ricardo Baeza-Yates and Carlos Castillo.
Crawling the infinite web: five levels are enough.
In Proceedings of the third Workshop on Web Graphs (WAW), volume 3243 of Lecture Notes in Computer Science, pages 156-167, Rome, Italy, 2004. Springer.

BYN04
Ricardo Baeza-Yates and Gonzalo Navarro.
Modeling text collections and its application to the web.
Applied Probability: Recent Advances, 2004.

BYP03
Ricardo Baeza-Yates and Bárbara Poblete.
Evolution of the Chilean web structure composition.
In Proceedings of Latin American Web Conference, pages 11-13, Santiago, Chile, 2003. IEEE CS Press.

BYP04
Ricardo Baeza-Yates and Bárbara Poblete.
Dynamics of the Chilean web structure.
In Proceedings of the 3rd International Workshop on Web Dynamics, New York, USA, 2004.

BYRdSV+04
Ricardo Baeza-Yates, Javier Ruiz del Solar, Rodrigo Verschae, Carlos Castillo, and Carlos Hurtado.
Content-based image retrieval and characterization on specific web collections.
In Third international conference on image and video retrieval (CIVR), volume 3115 of Lecture Notes in Computer Science, pages 189-198, Dublin, Ireland, 2004. Springer.

Kle99
Jon M. Kleinberg.
Authoritative sources in a hyperlinked environment.
Journal of the ACM, 46(5):604-632, 1999.

PBMW98
Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd.
The PageRank citation ranking: bringing order to the Web.
Technical report, Stanford Digital Library Technologies Project, 1998.

RGM01
Sriram Raghavan and Hector Garcia-Molina.
Crawling the hidden web.
In Proceedings of the Twenty-seventh International Conference on Very Large Databases (VLDB), pages 129-138, Rome, Italy, 2001. Morgan Kaufmann.



Notas al pie

... 1
Dirección de contacto: rbaeza@dcc.uchile.cl.
... WIRE2
Disponible en 1#1 http://www.cwr.cl/projects/WIRE2#2 .
... PHP 3
PHP, pre-procesador de hypertextos, disponible en 1#1 http://www.php.net2#2 , verificado en agosto del 2005.
... ASP 4
ASP, disponible en 1#1 http://msdn.microsoft.com/asp.net/2#2 , verificado en agosto del 2005.
... Netcraft5
Estudio de sitios de Netcraft, disponible en, 1#1 http://www.netcraft.com/survey/2#2 , verificado en agosto del 2005.
... Unidas6
COMTRADE, Commodity Trade Database, 1#1 http://unstats.un.org/unsd/comtrade/2#2 , verificado en agosto del 2005.
...graphviz7
GraphViz, software para visualización de grafos, 1#1 http://www.graphviz.org/2#2 , verificado en agosto del 2005.


Documento completo, para descargar e imprimir
(33 páginas, 2.8 MB)

E-Mail: rbaeza@dcc.uchile.cl