En Diciembre del 2004 recorrimos la Web chilena usando el sistema WIRE,
desarrollado en el CIW.
Los siguientes puntos resumen algunos de los principales hallazgos de este
estudio:
Respecto a la calidad de las páginas y sitios:
Respecto a las tecnologías Web:
Durante 4 días del mes de Diciembre del 2004, se utilizó el crawler WIRE 2 para descargar páginas de la Web chilena. Se utilizó un PC de escritorio con un procesador de 3GHz y 1Gb de memoria RAM, corriendo Debian Linux. La utilización total de red fue de 50 Gigabytes descargados y 600 Mb de datos enviados al solicitar las páginas.
La definición que usamos de Web Chilena son todas aquellos sitios del dominio .cl y todos los sitios que están hospedados en direcciones IP asignadas a Chile. Para los sitios .cl, contamos con el apoyo de NIC Chile para obtener la lista completa de dominios para fines de investigación.
El Cuadro 1 resume las características principales de la colección estudiada.
El proceso de recolección comienza con una lista de direcciones iniciales, y luego descarga páginas siguiendo enlaces hasa por 5 niveles de enlaces para páginas dinámicas, y hasta 15 niveles para páginas estáticas. Además, limitamos la recolección sólo a páginas HTML, descartando imágenes y otros objetos multimedia, y bajamos hasta un límite de 200KB por página y hasta 5.000 páginas por sitio.
La Web puede analizarse de muchas maneras distintas, para este estudio, hemos separado el análisis de la siguiente forma: la sección 2 discute las características de las páginas Web analizadas individualmente. La sección 3 se refiere a las características de los sitios Web. Las secciones 4 y 5 analizan los enlaces entre páginas y sitios respectivamente, y la sección 6 presenta nuestras conclusiones.
El recolector de páginas funciona extrayendo direcciones de las páginas descargadas, y es frecuente que entre estas direcciones aparezcan páginas que ya no existen o son simplemente direcciones erróneas. Cada vez que el recolector se contacta con un servidor Web, el servidor retorna un código de estado que indica si la página existe o no, o si hay algún otro motivo por el cuál no se puede encontrar la página pedida.
La Figura 1 muestra la distribución de páginas de acuerdo a estos códigos de estado. En la figura, hemos consolidado varios códigos para mayor claridad, que enumeramos a continuación con su equivalente en el estándar HTTP:
En todos nuestros experimentos, usualmente obtenemos entre 75% y 85% de transferencias exitosas. La proporción de enlaces rotos, sobre 6%, es significativa. Esto significa que el control de calidad sobre los sitios no es suficientemente acucioso para la tasa de cambio de la Web, y los enlaces no son revisados con la frecuencia necesaria.
Estudiamos el largo de las direcciones (URL - Universal Resource Locator) encontradas. En la Figura 2 se observa que la distribución de estos largos puede ser modelada mediante una distribución log-normal, que tiene la siguiente función de densidad de probabilidad
con los parámetros 4#4 (posición) 5#5 (escala), y 6#6 (forma).
Para evitar saturar excesivamente nuestro ancho de banda, bajamos solamente los primeros 200 KB de cada página. El centro de la distribución de los tamaños de página sigue una ley de Zipf con parámetro 7#7 , como se muestra en la figura 3. Cerca de los 200 KB el número de páginas se ve más alto del esperado debido a la manera en que se limitó el tamaño de página.
Observamos que por debajo de los 12 Kb, hay menos páginas de las predichas por la ley de Zipf. Estimamos que esto se debe a una limitación al escribir HTML; este lenguaje de marcado no fue diseñado para ser sucinto, e incluso un texto muy breve requiere una cierta cantidad de marcado. Esto se debe a que HTML se usa más como un lenguaje orientado a la presentación, con mucho código dedicado a formatear los atributos de las páginas y por lo tanto crece rápidamente especialmente para diseños complejos. Por esta razón, en esta zona la distribución es en general una log-normal [BYN04].
Para determinar la edad de las páginas, observamos la fecha de última modificación entregada por los servidores Web para cada página. En algunos casos esta fecha es errónea, por ejemplo: corresponde a una fecha en el futuro, o a una fecha muy antigua, previa a la invención de la Web. Esto se debe a servidores que no tienen sus relojes actualizados a la hora actual. Observamos que en un 83% de los casos los sitios Web retornan fechas de última modificación válidas.
La distribución de las edades de las páginas en términos de meses y años se muestra en la Figura 4.
|
Los cambios de páginas exhiben una distribución exponencial, como se ve en el gráfico de edad de páginas en meses. Nótese que aproximadamente el 25% de las páginas fueron creadas o modificadas en el último año, lo que indica que la Web chilena continúa creciendo a una tasa muy alta.
La profundidad lógica de una página es el número de enlaces que es necesario seguir desde la portada de un sitio para alcanzarla. La portada de un sitio entonces tiene profundidad 0, las páginas directamente alcanzables desde la portada profundidad 1, y así sucesivamente.
Como se mencionó anteriormente, limitamos al recolector para que descargue solamente 5 niveles para páginas dinámicas, y sólo 15 niveles para páginas estáticas. La distribución de páginas por profundidad se muestra en la Figura 5.
La distribución de páginas estáticas sigue una forma cuyo máximo está en el quinto nivel, pero la distribución de páginas dinámicas no decrece al aumentar la profundidad. Esto es porque las páginas dinámicas tienen enlaces a otras páginas dinámicas, creando sitios Web con el potencial de crear un número infinito de páginas. En experimentos previos, cuando hemos limitado el número de páginas por sitio a 25.000 en vez de 5.000, se aprecia que la cantidad de páginas dinámicas crece exponencialmente a cada nivel.
Cerca del 38% de las páginas descargadas eran páginas dinámicas. La aplicación más usada para generarlas es PHP 3, seguida de ASP 4y páginas generadas usando Java ((.jhtml y .jsp). La distribución de muestra en la Figura 6.
PHP, una tecnología de código abierto, claramente domina el mercado. Las páginas dinámicas son construidas principalmente usando técnicas de pre-procesamiento de hipertextos (PHP, ASP, JHTML, ColdFusion), en que los comandos para generar el contenido dinámico, como accesos a bases de datos, están incrustados en documentos que son principalmente código HTML.
Debe ser considerado también que algunas de las páginas que se ven como páginas estáticas, incluso con terminación .html, son en realidad generadas automáticamente usando procesamiento por lotes, con sistemas de administración de contenidos, así que hay otras tecnologías de contenido dinámico que pueden estar faltando en este análisis.
Encontramos 370.000 enlaces a archivos que no eran HTML, pero que tenían extensiones que son comúnmente usadas para documentos. El formato Adobe PDF (Portable Document Format) es el más ampliamente usado y el estándar de facto, seguido de texto plano y Microsoft Word. La distribución se muestra en la Figura 7.
A pesar del hecho de que Microsoft Windows es el sistema operativo más usado, los tipos de archivo asociados con aplicaciones de Microsoft Office como Word o Excel no son tan usados como uno esperaría, probablemente porque pueden contener virus y porque hay pérdida de formato porque las tipografías no están incrustadas en los documentos.
Hay más de 30.000 archivos XML en la Web chilena, incluyendo archivos con extensiones DocBook, SGML, XML y RDF. En nuestra opinión, esta cantidad de archivos sugiere que vale la pena bajar estas páginas XML en el futuro y analizarlas, puesto que podrían ser valiosas desde el punto de vista de un buscador Web.
Hay muchos enlaces a archivos multimedia, incluyendo más de 80 millones de enlaces a imágenes, 50.000 enlaces a archivos de audio, y 8.000 enlaces a archivos de vídeo. La distribución de formatos de archivo de estos enlaces se muestra en la Figura 8.
Los formatos Realaudio y MP3 son los más usados para audio, y se usan frecuentemente para streaming en radios por Internet. En el caso del vídeo, no está claro que haya un formato dominante, y hay relativamente muy pocos vídeos en la Web chilena, aproximadamente 1 vídeo por cada 1.000 imágenes.
Como una aplicación de caracterización de imágenes por contenido, en [BYRdSV+04] analizamos las imágenes de la Web chilena en detalle. Encontramos que aproximadamente 2/3 de las páginas tienen imágenes, y que un 80% de las imágenes son bastante pequeñas, de menos de 50 pixeles en su lado mayor. Durante el análisis, se ejecutó un algoritmo de detección de caras que encontró que alrededor de un 2% de las imágenes contienen caras de personas, con un promedio de 2,1 personas por cada foto en la que aparecen personas.
A continuación, separamos las páginas en dos grupos: portadas de sitios Web y páginas interiores. Encontramos varias diferencias entre los dos grupos. En las portadas de sitios Web, un 40% de las imágenes aparece más de una vez en la misma página, lo que es común para elementos gráficos como fondos, viñetas o bordes; por otra parte, en las páginas interiores, un 90% de las imágenes se repite más de una vez en alguna parte del sitio.
Además, en las páginas interiores hay relativamente menos imágenes GIF y más imágenes JPEG, posiblemente debido a que estas últimas normalmente son fotografías y por tanto son más grandes y lentas de descargar, por lo que no se encuentran con tanta frecuencia en las portadas. En total el formato GIF es el dominante, seguido de JPEG. EL formato PNG que fue concebido como un reemplazo del GIF, aún no es muy usado.
Finalmente, analizamos la prevalencia de animaciones Flash, encontrando que alrededor del 7% de las portadas usa este tipo de animaciones, mientras que son relativamente raras en las páginas interiores, apareciendo en aproximadamente un 2% de las páginas.
Encontramos enlaces a 30.000 archivos con extensiones usadas para código fuente, y 600.000 archivos con extensiones usadas para programas. Lo último no cuenta software que es distribuido en archivos comprimidos como .tar o .zip. La distribución de los enlaces se muestra en la Figura 9.
Nótese que el número de archivos que contienen paquetes de software para distribuciones de Linux dobla el número de paquetes de software para Windows; una posible explicación es que en Linux una aplicación usualmente está compuesta de varios paquetes. A pesar de esto, se ve que existe un nivel comparable de disponibilidad de software para ambas plataformas.
Los repositorios de software usualmente mantienen copias en varios sitios, por lo que hay gran cantidad de contenido duplicado. Nosotros utilizamos un método de detección de duplicados a priori, que evita bajar páginas desde una página que sea duplicada, esto nos permitió descargar menos de un 6% de páginas duplicadas.
Encontramos 140.000 archivos con extensiones usadas para archivos empaquetados o comprimidos, y su distribución de muestra en la Figura 10.
La extensión GZ, usada por el programa GNU gzip, es la extensión más común, seguida de ZIP. En ambos casos estos archivos probablemente incluyen paquetes de software que no están considerados en la Figura 9.
Definimos un sitio Web como el nombre del servidor que aparece en una URL, por ejemplo, en una dirección como:
http://www.example.com/directory/page.html
El sitio Web correspondería a www.example.com. Aplicamos además
la heurística de que tanto www.example.com y example.com se
consideran como el mismo sitio. Verificamos que de todos los sitios
recorridos, 1.653 de ellos (3%) tienen alguna versión del mismo nombre pero
en otro dominio con el mismo número IP
(por ejemplo com, net, org, info, etc.).
Observamos un promedio de 57 páginas por sitio. Este número obviamente depende del número máximo de páginas que escogimos bajar, en este caso 5.000. La moda es mucho más pequeña que el promedio y la distribución del número de páginas por sitio Web es muy sesgada, como se muestra en la Figura 11. Esta distribución se puede modelar con una ley de potencias (power-law) con parámetro 8#8 .
Para detectar cuáles son específicamente los sitios más grandes, realizamos una segunda recolección, esta vez solamente de páginas estáticas, con un límite de páginas por sitio 10 veces mayor, es decir, 50.000 páginas máximo por sitio.
Encontramos 17 sitios con 50 mil o más páginas estáticas y sólo otros dos sitios sobrepasaron las 4 mil páginas. Agrupamos los sitios por dominio, y los más grandes que encontramos se muestran en el Cuadro 2. Entre estos sitios encontramos principalmente directorios Web, sitios de descarga de software, proveedores de acceso a Internet, medios informativos y universidades.
| Dominio | Número de páginas | Dominio | Número de páginas |
| terra | 112.172 | linuxcenter | 32.560 |
| hispavista | 96.460 | rlz | 30.930 |
| tucows | 76.199 | experimentos | 29.169 |
| utfsm | 56.381 | dmoz | 25.744 |
| tripod | 49.973 | lacuarta | 24.747 |
| 4a | 49.906 | vision | 23.686 |
| panoramasonline | 49.800 | puc | 22.264 |
| cooperativa | 49.249 | canal13 | 19.026 |
| lapapa | 46.344 | buceo | 18.755 |
| uandes | 44.919 | ubiobio | 18.004 |
| educarchile | 41.384 | quepasa | 16.733 |
| uchile | 40.195 | sectorvitacura | 13.799 |
| educalibre | 39.835 | diariopyme | 13.022 |
| udec | 35.987 | syachile | 12.213 |
| macintosh | 33.388 | uc | 10.885 |
Por otra parte, hay muchos nombres de dominio que son registrados con el solo propósito de reservar el nombre para usarlo después. Por ejemplo, aproximadamente sólo la mitad de los dominios registrados bajo .CL tienen un sitio Web, y de ellos, el 40% de los sitios tiene sólo una página, así que sólo 1/4 de los sitios Web son sitios propiamente tales, con al menos dos páginas. A pesar de que el número de sitios en la Web chilena se ha duplicado en los últimos tres años, la fracción de sitios Web con sólo una página ha permanecido relativamente constante.
Analizando estos 21.450 sitios de los cuales el recolector sólo obtiene una página, se observa que en su mayoría corresponden a sitios cuya navegación depende completamente de animaciones Flash o programas en Javascript (y en mucha menor medida en applets en Java). Estos dos casos suman el 58% de los sitios, como se muestra en la Figura 12. Estos sitios son inaccesibles para la mayoría de los programas de búsqueda de las máquinas de búsqueda en la Web, lo que hace que sus páginas sean más difíciles de encontrar y por lo tanto incide negativamente sobre la cantidad de visitantes que reciben estos sitios.
Por otra parte, efectivamente hay sitios que solamente tienen una página sin ningún enlace (19%), o que solo contienen una redirección o un enlace a algún sitio externo (23%), en su mayoría se trata de sitios ``en construcción''. Por inspección manual observamos que algunos de ellos han estado en construcción por un período considerable de tiempo.
El tamaño promedio de un sitio Web completo, considerando solamente las páginas HTML, es de aproximadamente 0,8 Megabytes. Esto es sólo una pequeña fracción de la información total, puesto que las imágenes constituyen una parte importante de la información disponible en la Web. La distribución del tamaño total de páginas por sitios en términos de bytes es muy sesgada también, como puede verse en la Figura 13. Es incluso más sesgada que la distribución del número de páginas, pues el 10% de los sitios más grandes contiene más del 95% de la información medida en bytes.
Al igual que en el caso del número de páginas, agrupamos los sitios por dominio para detectar cuáles son los dominios que tienen la mayor cantidad de información en forma de texto, que son los que aparecen en el Cuadro 3. La lista incluye a muchos de los sitios que también aparecían entre los sitios con más páginas del Cuadro 2.
| Dominio | Tamaño [MiB] | Dominio | Tamaño [MiB] |
| hispavista | 2.669 | uchile | 458 |
| terra | 2.646 | udec | 427 |
| cooperativa | 1.479 | lacuarta | 373 |
| tucows | 1.416 | diariopyme | 365 |
| educarchile | 1.262 | camara | 346 |
| buceo | 832 | sectorvitacura | 305 |
| tripod | 815 | uandes | 273 |
| utfsm | 786 | 1host | 240 |
| educalibre | 714 | quepasa | 235 |
| 4a | 684 | dmoz | 221 |
| panoramasonline | 657 | lufthansa | 218 |
| linuxcenter | 605 | canal13 | 210 |
| rlz | 563 | sectorlascondes | 193 |
| lapapa | 535 | puc | 188 |
| macintosh | 469 | vision | 175 |
Tal como se definió anteriormente, la página inicial de un sitio Web tiene profundidad 0, y el nivel de cada página siguiente es el número de ``clicks'' que es necesario hacer para llegar a esa página.
La mayoría de los sitios Web son muy poco profundos, como se muestra en la Figura 14. La profundidad máxima promedio de los sitios Web es 9#9 . Más del 90% de los sitios pueden ser recorridos haciendo menos de 4 clicks desde la portada, lo que es consistente con [BYC04].
En el Cuadro 4 analizamos sólo páginas estáticas y agrupamos los sitios por dominio (promediando en el caso de dominios con varios sitios), mostrando los dominios que tienen una mayor profundidad máxima. Es importante notar que en algunos casos, hay sitios que al navegarlos siguiendo enlaces resultan bastante profundos, pero que sin embargo tienen rutas más cortas para acceder a la información. Por ejemplo, en ocasiones se puede llegar a una página muy profunda simplemente ingresando datos mediante un formulario. Es por esto que estas páginas a las que se accede mediante formularios se denominan también Web profunda (Deep Web[RGM01]).
| Dominio | Profundidad | Dominio | Profundidad |
| buceo | 50 | educarchile | 28 |
| icann | 50 | oxfam | 26 |
| lanacion | 50 | hispavista | 24 |
| cepchile | 50 | udec | 23 |
| umag | 48 | alosnoopy | 23 |
| canal13 | 45 | uc | 22 |
| portaldearte | 42 | utfsm | 22 |
| c5 | 42 | bcentral | 21 |
| vpu | 39 | unap | 19 |
| linux | 36 | iglesia | 19 |
| lacuarta | 33 | lufthansa | 19 |
| uchile | 32 | puc | 18 |
| icarito | 30 | syachile | 18 |
| panoramasonline | 28 | utem | 18 |
| sii | 28 | uai | 17 |
Medimos la edad de los sitios Web, observando la edad de la página más antigua, así como de la página más reciente y la página promedio. La edad de la página más antigua es una cota inferior en qué tan viejo es un sitio, mientras que la edad de la página más nueva es una cota superior en qué tan frecuentemente el sitio Web es actualizado. Los resultados se muestran en la Figura 15.
De acuerdo a estas cifras, cerca del 55% de los sitios Web fueron creados este año, y cerca de 3/4 de los sitios Web en los últimos 2 años. Esto es otra indicación de que la Web chilena continúa creciendo a un ritmo muy acelerado.
Definimos dominio como el dominio de segundo nivel en el nombre de un sitio Web, por ejemplo:
http://www.fcfm.uchile.cl/ http://machi.med.uchile.cl/
corresponden ambas al dominio uchile.cl.
Los dominios con más sitios se muestran en el Cuadro 5. Podemos notar que en los primeros lugares aparecen proveedores de Internet y universidades, quedando más atrás los sitios de gobierno, donde la abreviación de ``gobierno'' en inglés .gov es más frecuentemente usada que la abreviatura en castellano .gob.
|
Respecto a las direcciones IP, y dado que lo más común es que cada servidor tenga sólo una dirección IP, estudiamos cuantos sitios hay por dirección IP como una aproximación de cuántos sitios son servidos por cada servidor. En promedio, cada dirección IP que tiene un servidor Web atiende a 3,4 sitios distintos, y la mayoría de los sitios tiene su propia dirección IP.
Sin embargo, encontramos más de 90 direcciones IP que tienen más de 100 sitios cada una, e incluso 2 direcciones IP con más de 1000 sitios cada una. La distribución de sitios por IP se muestra en la Figura 16 y exhibe una ley de potencias con parámetro 1,8.
La observación de que existen muchas sitios Web atendidos por unas pocas IPs, nos lleva a utilizar el servicio de DNS reverso para averiguar cuál es el nombre simbólico asociado a esas IP. Esto permite obtener una lista en la cuál se observan cuales son los proveedores de Internet que cuentan con un mayor número de sitios (notar que pueden ser de distintos dominios, pero que están hospedados en el mismo servidor). El Cuadro 6 considera sólo sitios que es posible contactar y que tienen al menos una página Web.
| Proveedor | Número de sitios |
| tie.cl. | 3220 |
| virtuabyte.com. | 3165 |
| entelchile.net. | 1740 |
| tchile.com. | 1634 |
| lycos.com. | 745 |
| tecnoera.com. | 705 |
| puntoweb.cl. | 636 |
| netline.cl. | 544 |
| manquehue.net. | 544 |
| uchile.cl. | 501 |
| uplink.cl. | 451 |
| red7.net. | 447 |
| ifxnw.cl. | 434 |
| latlink.net. | 361 |
| gtdinternet.com. | 354 |
De acuerdo con Netcraft5la aplicación para servidor Web más usado es Apache con un 70% de participación de mercado, y la segunda aplicación más usada es Microsoft IIS (Internet Information Server) con un 20%. En la Figura 17 mostramos esta distribución para la Web Chilena, en el cual se observa una tendencia similar, aunque con una presencia ligeramente mayor de sitios usando IIS que en la muestra global.
Además, en la misma figura observamos la distribución de sistemas operativos, en la que Unix y Linux tienen un 65% de participación, además, al comparar los dos gráficos podemos inferir que al menos 1/5 de los servidores basados en Windows usan Apache.
Una característica central de las páginas Web es que pueden contener enlaces o hiper vínculos a otras páginas. En el caso de la Web, estos enlaces conforman una estructura que se denomina red libre de escala.
Las redes libres de escala, al contrario de las redes aleatorias, se caracterizan por una distribución dispareja de enlaces. Estas redes han sido el tema de una serie de estudios de Barabási [Bar02] entre otros, y se caracterizan como redes en las cuales la distribución del número de enlaces 10#10 sigue una ley de potencias (power-law):
| 11#11 | (1) |
Las redes libres de escala se caracterizan por tener unos pocos nodos altamente enlazados que actúan como centros que conectan muchos de los otros nodos a la red. La diferencia entre una red libre de escala y una red aleatoria se muestra en la Figura 18.
![]() |
Las redes libres de escala son, a su vez, auto-similares, en el sentido de que una pequeña muestra de la red tiene propiedades de la red completa. Este es el caso de la Web chilena, que a pesar de contener menos de 1/1000 (un milésimo) de las páginas disponibles en el mundo, presenta características muy similares a la red completa.
Se denomina grado de una página al número de enlaces que entran o salen de una página. El número de enlaces que entran se denomina grado interno y el número de enlaces que salen se denomina grado externo.
La distribución de enlaces es muy sesgada y unas pocas páginas tienen grado muy alto. La distribución del grado interno es mucho más sesgada que la distribución del grado externo, como se muestra en la Figura 19: tener una página con muchos enlaces que apunten a ella es obviamente más difícil que tener una página con muchos enlaces apuntando a otras páginas.
Existe una correlación entre el grado externo de las páginas y el tamaño de éstas, puesto que una página no puede tener demasiados enlaces si es muy pequeña, como se muestra en la Figura 20.
Existen varios algoritmos de análisis de enlaces que intentan inferir, para cada página en la Web, qué tan importante es esa página, utilizando la información de los enlaces que apuntan a cada página. Comparamos la distribución de Pagerank [PBMW98] con una variación del algoritmo HITS [Kle99], en el cual usamos la Web completa como el conjunto de análisis; esto último puede verse como una versión estática de HITS.
El algoritmo Pagerank obtiene para cada página un puntaje, que refleja qué tantos enlaces recibe esa página desde otras páginas con un alto número de enlaces. De alguna manera es una medida de la cantidad y calidad de los enlaces recibidos.
El algoritmo de HITS obtiene para cada página dos puntajes: Hub y Authority. El puntaje Hub indica qué tan buena es la página como recurso de enlaces, en términos de qué tan buenos son los enlaces que tiene hacia otras páginas. El puntaje Authority indica qué tan buena es la página como recurso de información, en términos de qué tan buenos son los enlaces que recibe.
La distribución de los puntajes puede verse en la Figura 21.
Por la forma en que se calcula Pagerank, usando saltos aleatorios dentro del procedimiento de cálculo, incluso páginas con muy pocos enlaces entrantes tienen un valor de Pagerank no-nulo. Por otra parte, una página necesita ``buenos'' enlaces para tener un puntaje Hub o Authority no-nulo, de manera tal que solo el 12% de las páginas tienen un valor Hub y sólo un 3% de las páginas un valor Authority.
En la Figura 22 se muestra el puntaje obtenido por las páginas con mayor puntaje de enlaces (los puntajes son independientes entre sí, de manera que la página con mayor puntaje Pagerank no es necesariamente la página con mayor puntaje Hub.
No observamos que exista correlación entre los puntajes de análisis de enlaces que medimos, como se muestra en la Figura 23 en la cual aparece una muestra aleatoria de 10.000 documentos, descartando los de la muestra que tuvieran puntaje de enlaces cero.
![]() ![]() |
Encontramos más de 700.000 enlaces hacia páginas en otros países. Los 20 países más referenciados se muestran en el Cuadro 7.
| Dominio | Porcentaje de enlaces | Dominio | Porcentaje de enlaces |
| COM | 68,020% | MX - México | 0,499% |
| NET | 10,648% | NO - Noruega | 0,405% |
| ORG | 9,146% | NL - Holanda | 0,368% |
| BR - Brasil | 2,838% | CO - Colombia | 0,366% |
| AR - Argentina | 1,828% | TK - Tokelau | 0,249% |
| ES - España | 1,502% | VE - Venezuela | 0,231% |
| UK - Reino Unido | 1,148% | JP - Japón | 0,213% |
| DE - Alemania | 0,800% | FR - Francia | 0,202% |
| CX - Christmas Island | 0,678% | IT - Italia | 0,181% |
| EDU | 0,517% | GOV | 0,162% |
La mayoría de los países en el Cuadro 7 son países latino americanos, pero hay también enlaces hacia dominios grandes como .COM o .DE. También la presencia de ciertos enlaces que son usados por motivos comerciales, como CX y TK.
Usamos datos de comercio exterior la División de Estadísticas de las Naciones Unidas6, y comparamos esto con el número de enlaces encontrados. Los resultados se muestran en la Figura 24. Hay una relación significativa entre el número de enlaces y el volumen de exportaciones e importaciones, y las desviaciones más significativas de esta regla se aprecian para los países asiáticos, que posiblemente debido a una barrera de lenguaje están más conectados con nosotros en términos de intercambio comercial que en la Web.
![]() ![]() |
En lo siguiente, consideraremos los enlaces entre sitios Web. Un enlace entre dos sitios Web representa uno o varios enlaces entre sus páginas, preservando dirección. Esto significa que si existe al menos un enlace entre, por ejemplo www.A.cl/paginaA.html y www.B.cl/paginaB.html, entonces diremos que existe un enlace entre www.A.cl y www.B.cl. Los enlaces a páginas dentro del mismo sitio no son considerados.
Las características de los enlaces entre sitios de la Web chilena se resumen en el Cuadro 8.
La distribución del grado interno y externo en los sitios Web también revela una red libre de escala, como se muestra en la Figura 25. Los gráficos acumulados consideran solamente los sitios Web con al menos un enlace. Estos resultados son similares a la Web completa [BKM+00].
Estudiamos los puntajes que presentamos en la Figura 21 y los sumamos por sitios Web, obteniendo una medida de calidad para cada sitio. El resultado se encuentra en la Figura 26. Una acotación importante es que las mejores páginas de la Web se distribuyen en muchos más sitios (por ejemplo el 3% de páginas que tienen buena autoridad se distribuyen en casi el 70% de los sitios).
En un grafo, se dice que una parte del grafo es una componente conexa si es posible ir desde cualquier nodo de esa parte a cualquier otro nodo dentro de la misma parte. Se dice que una parte del grafo es una componente fuertemente conexa si esto es posible respetando la dirección de los enlaces. Dentro de una parte fuertemente conexa, es posible ir desde cualquier sitio a cualquier sitio siguiendo enlaces. No toda la Web chilena es fuertemente conexa.
Estudiamos la distribución de los tamaños de las componentes fuertemente conexas (CFC) en el grafo de sitios Web. Una componente fuertemente conexa gigante aparece, tal como fue observado por Broder y otros [BKM+00]. Esta es una marca típica de una red libre de escala. La distribución de los tamaños de las componentes fuertemente conexas se presenta en el Cuadro 9 y la Figura 27.
|
En [BYC01] extendimos la notación introducida por Broder y otros [BKM+00] para analizar la estructura de la Web, dividiendo la componente MAIN en cuatro partes:
Nótese que los sitios Web en la componentes IN e ISLANDS se encuentran sólo accesando directamente la página principal de esos sitios, puesto que no son alcanzables siguiendo enlaces. Esto es posible porque contamos con una lista completa de dominios registrados bajo .cl al momento de realizar estos estudios. La distribución de sitios Web en componentes se muestra en la Figura 28. Esta estructura evoluciona con el tiempo, como fue estudiado en [BYP03,BYP04].
. |
Los 15 sitios más referenciados se muestran en el Cuadro 10. Hay una presencia muy fuerte de sitios de gobierno en los primeros lugares, así como de universidades.
|
Representamos gráficamente los dominios que reciben más enlaces en la Web chilena. En la Figura 29, hemos separado los dominios más referenciados en tres grupos: gobierno (rombos), comercial (rectángulos) y educacional (elipses).
El gráfico fue construido usando graphviz7, que mediante un modelo de resortes encuentra una configuración que acerca los sitios que tienen más enlaces entre sí. Hemos representado por el grosor de las líneas la cantidad de enlaces.
Observamos que los dominios del mismo tipo tienden a agruparse juntos, y hay algunas particularidades interesantes: entre los dominios de tipo educacional, hay muchas conexiones, mientras que entre los dominios comerciales bastante menos. Los dominios de gobierno tienen una conectividad que está entre estos dos extremos. Adicionalmente, una serie de instituciones de gobierno y privadas relacionadas con la educación (arriba a la izquierda en la figura) tienden a agruparse juntas.
En este estudio, hemos analizado varias características de una muestra grande de la Web chilena, y la mayoría de esas características comprueban que la distribución de calidad en la Web es muy sesgada. Esto es bueno desde el punto de vista de un buscador Web, porque solo unas pocas de las páginas tienen alguna relevancia, pero también es malo porque hay una gran cantidad de páginas que son probablemente irrelevantes.
Todos los usuarios que han navegado un cierto tiempo por la Web tienen una percepción de cómo es ésta. Esta percepción está basada en lo que ven cuando interactúan con la Web usando una herramienta usual: un navegador. El comportamiento de distintos usuarios involucra distintas partes de la Web, pero en la mayoría de los casos se limita a unos pocos sitios de alta importancia con tópicos como noticias, compras o correo electrónico leído a través de la Web.
La mayoría de los usuarios no van muy profundo dentro de los sitios Web. Esto significa que hay miles o millones de páginas que son visitadas muy rara vez, o que son visitadas casi nunca. Cuando se caracteriza la Web, es necesario olvidarnos de lo que hemos visto al navegar, porque lo que se ve a través de un navegador es sólo la superficie de algo mucho más profundo. Por ejemplo, hay páginas muy grandes o muy pequeñas, páginas con miles de enlaces y páginas con sólo uno, y así sucesivamente.
Además de este fenómeno, nuestros resultados también muestran que los formatos dominantes son los formatos estándar como PDF o texto plano y las herramientas de código abierto como PHP y GZIP, lo cual es parte de la misma naturaleza de la Web.
Agradecemos a Felipe Ortiz, quien realizó los análisis de sitios de una sola página y direcciones IP, y trabajó en los gráficos de correlación con comercio exterior.
El siguiente glosario incluye términos básicos de Internet en general, que son usados en este documento:
La World Wide Web como servicio tiene su propia terminología: