Capítulo 3
Sitios

Un sitio web es definido como un conjunto de páginas que comparte la parte del nombre del servidor de la URL. De este modo, un sitio es denominado http://www.sitio.cl/, y contiene todas las páginas cuya raíz es http://www.sitio.cl/1.

Este Capítulo estudia diferentes características de los sitios de la Web Chilena. Un cuadro resumen con los datos de los sitios se puede observar en el Cuadro 3.1, donde se observa que el número de sitios estudiados es 200,000. Llama la atención la cantidad de sitios vacíos que se encontraron, 88,626, es decir, sitios cuya dirección existe en algún lugar2 pero que en realidad no tienen páginas, o incluso ni siquiera están asignados a algún servidor.




Sitios Estudiados 200.000




Vacíos (Sin Documentos) 88.626
Sitios con 1 Página 48.103
Sin Grado Interno 172.506
Sin Grado Externo 171.794
Promedio Páginas 48,19
Promedio Contenido 728.843,12 [B]

Cuadro 3.1: Resumen de estadísticas sobre los sitios.

Las Secciones de este Capítulo son las siguientes:

Sección 3.1, Número de Páginas:
se estudia la cantidad de páginas que poseen los sitios de la colecta.
Sección 3.2, Sitios con solamente una página:
se estudia el fenómeno de los sitios de una página, que no necesariamente tienen una página, sino más bien, una sola es visible por el recolector.
Sección 3.3, Sitios con muchas páginas:
se enumeran los sitios con más páginas de la colección.
Sección 3.4, Títulos de las páginas de un sitio:
se estudian los títulos de documentos en el contexto de los sitios de la colecta.
Sección 3.5, Tamaño de los sitios:
se estudia el tamaño total de los sitios, considerando la suma del tamaño de las páginas que lo componen.
Sección 3.6, Edad:
se estudia la edad en meses de los sitios, considerando la edad promedio de los documentos, en conjunto con la edad del documento más antiguo y del más nuevo.
Sección 3.7, Proveedores:
se estudian los proveedores de servicio de internet, ISP, que hospedan más sitios de la Web Chilena.
Sección 3.8, Enlaces internos:
se estudian los enlaces internos dentro de un sitio, es decir, aquellos enlaces entre documentos dentro de un mismo sitio.
Sección 3.9, Enlaces entre sitios:
se estudia el grado interno y externo de los sitios.
Sección 3.10, Sitios más referenciados:
se enumeran los sitios con mayor grado interno, es decir, aquellos enlazados desde la mayor cantidad de sitios distintos.
Sección 3.11, Sitios con más enlaces:
se enumeran los sitios que tienen más enlaces hacia otros sitios distintos.
Sección 3.12, Suma de los puntajes por enlaces:
se estudian los puntajes por enlaces para los sitios de la colección, considerando la suma de los puntajes para los documentos de los sitios.
Sección 3.13, Componentes fuertemente conectados:
una componente fuertemente conectada, en términos de enlaces, permite llegar desde un sitio de la componente hasta otro solamente siguiendo enlaces. En esta sección se estudia la distribución de este tipo de componentes en la Web Chilena.
Sección 3.14, Estructura de enlaces entre sitios:
a partir de las componentes estudiadas en la sección anterior, es posible establecer una estructura que define la composición de la Web Chilena, considerando como base de la estructura los enlaces entre sitios.

3.1. Número de Páginas

Se observó un promedio de 48, 19 páginas por sitio (considerando sólo los sitios estudiados). La distribución de páginas a través de los sitios es muy sesgada, pues un 7 % de los sitios tiene el 90 % de los documentos. Dicha distribución se puede ajustar a una ley de potencias de parámetro 1, 84, visible en la Figura 3.1, y comparable a 1, 14 en España [7], 1, 6 en Brazil [27], 1, 45 en Argentina [34].


PIC

Figura 3.1: Distribución del número de documentos en los sitios.

3.2. Sitios con solamente una página

Hay 48,103 sitios en los cuales el recolector encontró sólo una página. Esto representa un 24, 05 % de los sitios estudiados. Ahora bien, si una persona visita estos sitios para inspeccionarlos manualmente, en muchos de ellos encontrará un sitio completo con más de una página. Dentro de los motivos por los cuales se encuentra solamente una página en un sitio se encuentran los siguientes:

En la Figura 3.2 se muestra la distribución de los sitios de una página anómalos, es decir, aquellos en los cuales sí se espera tener acceso a una mayor cantidad de páginas.


PIC

Figura 3.2: Clasificación de los sitios que solamente tienen una página visible para el recolector.

3.3. Sitios con muchas páginas

Respecto a los sitios que tienen muchas páginas, o más bien los que tienen el mayor número de páginas, también existen anomalías. En el Cuadro 3.2 se observa la lista de los 30 sitios con más páginas, de los cuales se indica el total de páginas encontradas, la dirección del sitio y un comentario indicando la anomalía que afecta a ese sitio si es que se puede identificar alguna.





Páginas Sitio Comentario






22.825 http://www.autovia.cl CMS con parámetros en URL, Catálogo de Productos
22.473 http://www.b2.cl CMS con parámetros en URL
22.100 http://www.ais.cl CMS con parámetros en URL
21.613 http://www.kontent.cl CMS con parámetros en URL, Catálogo de Productos
21.244 http://www.madness.cl CMS con parámetros en URL
21.158 http://www.suena.cl CMS con parámetros en URL
20.795 http://www.busch.cl CMS con parámetros en URL, Catálogo de Productos
20.419 http://www.descorchados.cl CMS con parámetros en URL
20.407 http://www.cienciaforense.cl CMS con parámetros en URL
20.314 http://www.fotolog.cl Comunidad de Fotografía,Parámetros en URL
20.270 http://www.tarjetabip.cl CMS con parámetros en URL
19.975 http://www.caaeii.cl CMS
19.699 http://www.sexrelatos.cl CMS con parámetros en URL
19.654 http://www.fechta.cl CMS con parámetros en URL
19.601 http://www.upadiseno.cl CMS con parámetros en URL
18.527 http://www.ees.cl CMS con parámetros en URL
18.516 http://www.mediatecamusical.cl CMS
18.447 http://www.enrutators.cl CMS con parámetros en URL
18.347 http://www.graphologychile.cl CMS con parámetros en URL
18.340 http://www.jotelog.cl Comunidad de Fotografía, Parámetros en URL
18.271 http://www.paine.cl CMS con parámetros en URL
17.861 http://www.kemuel.cl CMS con parámetros en URL
17.803 http://www.elobservatodo.cl CMS con parámetros en URL
17.763 http://www.atinachile.cl Comunidad de blogs, CMS con parámetros en URL
17.577 http://www.directorioweb.cl Directorio de sitios
17.401 http://www.educandonos.cl CMS con parámetros en URL
17.378 http://www.amazon.cl Catálogo de Productos
17.157 http://www.chileaprende.cl CMS con parámetros en URL
17.130 http://www.blogcoba.cl CMS con parámetros en URL
16.974 http://www.confronte.cl Catálogo de Productos

Cuadro 3.2: Los sitios con mayor cantidad de documentos HTML. El comentario indica posibles anomalías que incidieron en el número de documentos encontrado en el sitio.

En general, existen dos anomalías que usualmente se dan juntas. La primera es una consecuencia de utilizar un administrador de contenido (CMS) para gestionar las páginas. Estos administradores proveen una gran cantidad de formas para acceder al mismo contenido, es decir, generan una gran cantidad de páginas duplicadas, todas válidas, pero con direcciones distintas. La segunda anomalía es el uso de parámetros en la URL, mediante URL Rewriting, que acentúa la primera anomalía ya que sitúa un documento en una estructura física que realmente no existe. Los recolectores cuando encuentran una página que se encuentra a una profundidad física mayor a 2, sacan la última parte de la URL y verifican si sigue siendo una dirección válida. Cuando un CMS utiliza parámetros en la URL, a partir de una dirección se puede llegar a recolectar una cantidad de páginas equivalentes a la profundidad de la dirección. Estas páginas no suelen gatillar errores en el servidor (es decir, del tipo Error 404), sino que usualmente presentan algún tipo de contenido válido y duplicado proporcionado por el CMS.

Dejando de lado las anomalías, resulta natural pensar que los otros sitios que pueden tener una gran cantidad de páginas son los catálogos de productos, en especial en los sitios de remates, y los sitios comunitarios, donde cada usuario tiene una gran cantidad de páginas asignadas (en las cuales puede tener fotos, mensajes, publicaciones, etc., dependiendo del tipo de sitio). Un problema detectado en la mayoría de los catálogos de productos es que muchos de esos sitios duplican el contenido de otros sitios, lo que quiere decir que cuando un sitio agrega un producto, otros sitios también lo agregan, por lo que el número de páginas crece en todos ellos.

3.4. Títulos de las páginas de un sitio

En la Figura 3.3 se observa la correlación entre el número de páginas de un sitio y la cantidad de títulos por página que tiene el sitio. El caso ideal es que un sitio tenga un título de documento distinto para cada página. En general no se observa una correlación significativa. Sin embargo, una gran cantidad de sitios tienen una relación cercana a 1, lo cual indica que existe una mayor preocupación por asignar un título a los documentos.


PIC

Figura 3.3: Dispersión entre la cantidad de páginas en un dominio y la proporción entre títulos distintos y páginas dentro del dominio.

3.5. Tamaño de los sitios

Al hablar de tamaño de un sitio se considera la suma de los tamaños de las páginas que lo componen. Sólo se considera el contenido HTML, es decir, el texto de las páginas (incluyendo código fuente), no el de sus imágenes u otros documentos o archivos. En la Figura 3.4 se muestra la distribución del tamaño de los sitios, ajustada a una ley de potencias de parámetro 1, 64. La distribución es muy sesgada: un 14 % de los sitios contiene el 99 % del total del contenido.


PIC

Figura 3.4: Distribución del contenido, en términos de tamaño, para los sitios de la colecta.

En el Cuadro 3.3 se listan los 30 sitios con mayor cantidad de texto. De los 30 sitios, 29 son de índole comercial, y se repiten varios sitios del Cuadro 3.2, lo que es natural si se considera que las anomalías que provocan una mayor cantidad de páginas también provocan una mayor cantidad de contenido.





Texto [MiB] Sitio Tipo






1.718 http://www.suena.cl C
1.586 http://www.amazon.cl C
1.179 http://www.planetashile.cl C
928 http://listados.deremate.cl C
873 http://www.b2.cl C
863 http://foros.irc.cl C
818 http://www.hotmovies.cl C
813 http://www.atinachile.cl C
777 http://www.enrutators.cl C
757 http://www.cienciaforense.cl C
755 http://www.busch.cl C
741 http://www.kontent.cl C
674 http://www.promolibros.cl C
669 http://www.parapentechile.cl C
668 http://amcham.bluecompany.cl C
664 http://www.blogcoba.cl C
630 http://www.amchamchile.cl C
626 http://www.trance.cl C
619 http://www.sexrelatos.cl C
617 http://www.fam.cl C
614 http://www.deremate.cl C
605 http://www.shoebuy.cl C
600 http://foro.rox.cl C
597 http://www.icoubb.cl C
594 http://www.universitarios.cl C
583 http://guia.mercadolibre.cl C
572 http://www.descorchados.cl C
561 http://www.econgreso.cl C
553 http://www.paine.cl G
547 http://www.podcaster.cl C

Cuadro 3.3: Tamaño de los sitios en MiB. Se considera solamente el tamaño de los documentos en formato HTML.

3.6. Edad

Para estudiar la edad de un sitio web, se definen tres mediciones: la edad promedio de los documentos; la edad del documento más antiguo, es decir, aquel cuya fecha de actualización es una cota inferior respecto a la de los otros documentos; y la edad del documento más nuevo, es decir, la de aquel cuya actualización se realizó más recientemente.

La distribución de la edad en meses de los sitios se observa en la Figura 3.5. Las tres edades consideradas se pueden ajustar a una ley de potencias: para la edad promedio, el parámetro es 1, 32; para la edad del documento más antiguo,1, 21; para la edad del documento más reciente, 1, 37.


PIC
(a) Edad del documento más antiguo.
PIC
(b) Edad del documento más reciente.
PIC
(c) Edad promedio de los documentos.
Figura 3.5: Distribuciones de las edades de los documentos de los sitios.

Cerca del 32 % de los sitios fueron creados o actualizados en el último año, lo que indica no solamente que la web Chilena crece a un ritmo acelerado, sino que también constante, ya que el año 2006 creció un 40 % respecto al año 2004 [6].

3.7. Proveedores

Aunque cada sitio tiene una dirección única, muchos de ellos están hospedados en los mismos servidores. Determinar esto es posible a través de las direcciones IP de los sitios, y una vez que se tiene la dirección IP, se puede hacer una búsqueda de dns reverso para conocer el proveedor al que pertenece esa dirección. En el Cuadro 3.4 se muestran los 30 proveedores que hospedan más sitios en la Web Chilena.




Proveedor Sitios




ifxnw 12497
tchile 5712
virtuabyte 4048
puntoweb 3471
dattaweb 2590
chileadmin 2172
tie 2120
tecnoera 2086
chilecom 1835
dch 1564
entelchile 1525
dreamhost 1286
cyberiainternet 1277
ibizdns 1251
puntohost 1242
websitewelcome 1160
iia 1143
abyb 1088
theplanet 1067
hostmar 982
intelired 914
idat 884
netline 823
webhostingchile 714
smart 688
portalciudadano 688
dns-principal-2 687
conepuppy 612
uchile 595
dnsforhost 554
intersitio 536
hostingpro 472
secureserver 461
d11intersitio 456
cyberblues 452
altavoz 449
telmexchile 438
bluehost 429
digitalproserver 425
scd 424
zcohosting 406

Cuadro 3.4: Proveedores de Servicio de Internet (ISPs) con mayor cantidad de sitios, obtenidos mediante búsqueda de DNS reverso.

3.8. Enlaces internos

Un enlace interno dentro de una página en un sitio es aquel que apunta hacia otra página dentro del mismo sitio. En promedio, un sitio tiene 337 enlaces internos. Del mismo, el promedio de enlaces internos por página es 2, 25 (sin considerar sitios vacíos o con una página, en los cuales no existen los enlaces internos).

La distribución del número de enlaces internos por sitio se muestra en la Figura 3.6, y se ajusta a una ley de potencias con parámetro 1, 54. La distribución del número de enlaces internos por página en los sitios, visible en la Figura 3.7 se ajusta a una ley de potencias de parámetro 2, 98.


PIC

Figura 3.6: Distribución del número de enlaces internos en los sitios.


PIC
(a) Enlaces Internos por Página
PIC
(b) Número de Enlaces Internos por Página
Figura 3.7: Distribuciones de enlaces internos por página para los documentos del sitio y del número de enlaces internos por página.

Un sitio con pocas páginas no puede tener demasiados enlaces internos. En la Figura 3.7 se muestra un gráfico de dispersión entre el número de páginas y la relación de enlaces internos por página en los sitios. En este gráfico no se aprecia una correlación importante.

3.9. Enlaces entre sitios

El grado interno de un sitio es el número de sitios que tienen al menos un enlace hacia él, mientras que el grado externo de un sitio es el número de sitios distintos que son enlazados desde sus páginas.3

En esta Sección se estudia el grado interno y externo de los sitios de la colección4 . El grado interno de un sitio es una medida de su popularidad, mientras que el grado externo refleja el tipo de sitio que se está visitando. Un sitio comercial difícilmente tendrá enlaces hacia otros sitios porque eso aleja a los usuarios. Por otro lado, aumentar el grado interno es difícil, mientras que aumentar el grado externo es fácil, ya que basta con editar el contenido de las páginas.

En la Figura 3.8 se muestra la distribución del grado interno en los sitios. Esta distribución se ajusta a una ley de potencias de parámetro 1, 83, comparable con Brasil (1, 9 [27]), Grecia (2, 0, [20]) y la Web global (2, 34, [19]).


PIC

Figura 3.8: Distribución del Grado Interno para los sitios de la colecta.

Asimismo, en la Figura 3.9 se muestra la distribución del grado externo de los sitios. Esta distribución también se ajusta a una ley de potencias de parámetro 1, 83.


PIC

Figura 3.9: Distribución del Grado Externo para los sitios de la colecta.

Es necesario recordar que los grados interno y externo son relativos a la colección de sitios. Un sitio sin grado interno en la Web Chilena bien puede tener un grado interno alto en la Web Global.

3.10. Sitios más referenciados

Los 30 sitios más referenciados por otros sitios se muestran en el Cuadro 3.5. Para cada sitio se muestra el total de enlaces que recibe desde los otros sitios. La magnitud de los enlaces es similar a la encontrada el año 2006 [6], y los sitios son, en general, los mismos. También muchas posiciones se han mantenido, lo cual indica que el grado interno de los sitios no presenta grandes variaciones entre un año y otro, posiblemente debido a la dificultad que tienen los sitios, en particular los sitios recientes, para ser enlazados por otros.





Sitios que enlazanTotal Enlaces Sitio






542 21.224 http://www.sii.cl
398 21.001 http://www.uchile.cl
374 2.686 http://www.mineduc.cl
335 2.321 http://www.meteochile.cl
290 1.249 http://www.corfo.cl
261 8.279 http://www.gobiernodechile.cl
260 3.984 http://www.latercera.cl
241* 5.635 http://mi.loquegustes.cl
241 945 http://www.bcentral.cl
239 1.938 http://www.puc.cl
232 609 http://www.conama.cl
216 1.472 http://www.sence.cl
209 720 http://www.amarillas.cl
204 809 http://www.udec.cl
200 732 http://www.sernatur.cl
195 966 http://www.terra.cl
190 477 http://www.minsal.cl
187 4.997 http://www.lanacion.cl
165 7.789 http://www.elmostrador.cl
162 1.204 http://www.iglesia.cl
160 962 http://www.universia.cl
157* 4.312 http://ayuda.loquegustes.cl
155 659 http://www.conicyt.cl
154 273 http://www.prochile.cl
145 288 http://www.conaf.cl
145 3.139 http://www.dibam.cl
145** 145 http://www.alessandri.cl
145 6.815 http://www.uach.cl
143 430 http://www.bcn.cl
142 195 http://www.registros19862.cl

Cuadro 3.5: Sitios que reciben más enlaces. Primero, la cantidad de sitios que lo enlazan, después el número total de enlaces que reciben. Los sitios marcados con * reciben todos sus enlaces desde otros sitios pertenecientes al mismo dominio. El sitio marcado con ** recibe solamente un enlace desde cada sitio que lo enlaza, todos ellos dominios “resguardados” por los dueños del sitio.

3.11. Sitios con más enlaces

Los 30 sitios que tienen más enlaces a otros sitios se muestran en el Cuadro 3.6. En los primeros lugares destacan buscadores y directorios, aunque se pueden encontrar sitios de instituciones educacionales y sitios comunitarios. La magnitud es muy distinta a la de los estudios anteriores: respecto al estudio del año 2006





Sitios EnlazadosTotal Enlaces Sitio






1.253 2.507 http://www.chido.cl
523 1.706 http://www.fotolog.cl
416 1.205 http://www.atinachile.cl
352 361 http://www.todocl.cl
292 477 http://www.webs.cl
240 346 http://www.solteros.cl
224 225 http://www.huellas.cl
206 212 http://www.agendacomercial.cl
205 376 http://www.123.cl
193 437 http://www.educarchile.cl
190 200 http://www.boom.cl
184 2.796 http://www.chilepd.cl
172 191 http://www.lemmefind.cl
165 184 http://www.mipagina.cl
164* 168 http://www.scanning.cl
164* 167 http://www.nessus.cl
164* 167 http://www.asp.cl
163* 167 http://www.ivr.cl
163* 167 http://www.simulacion.cl
163* 166 http://www.nanotech.cl
163 165 http://www.yes.cl
163* 167 http://www.bangalore.cl
162* 166 http://www.olap.cl
162* 167 http://www.links.cl
162* 164 http://www.subasta.cl
162* 166 http://www.convenio.cl
162* 164 http://www.top.cl
155 168 http://www.sitiosculturales.cl
153* 155 http://www.compiere.cl
149 505 http://www.plataformaurbana.cl

Cuadro 3.6: Sitios que tienen más enlaces hacia otros sitios. Primero, la cantidad de sitios que enlazan, después el número total de enlaces que contienen. Los sitios marcados con * corresponden a réplicas del mismo sitio.

3.12. Suma de los puntajes por enlaces

En la Figura 3.10 se muestran las distribuciones de los puntajes por enlaces para los sitios. Si bien las distribuciones tienen formas similares a leyes de potencias, el error es demasiado grande como para considerar que son ajustables. Ello no quiere decir que la distribución no sea sesgada: un 20 % de los sitios tiene el 99 % del Puntaje Authority total; un 7 % de los sitios tiene el 99 % del puntaje Hub; y un 20 % de los sitios tiene el 99 % del Pagerank total.


PIC
(a) Distribución del puntaje Authority para los sitios de la colecta.
PIC
(b) Distribución del puntaje Hub para los sitios de la colecta.
PIC
(c) Distribución del PageRank para los sitios de la colecta.
Figura 3.10: Distribuciones de las sumas de puntajes por enlaces para los sitios.

3.13. Componentes fuertemente conectados

En un grafo, se dice que una parte de él es una componente conexa o conectada si es posible ir desde cualquier nodo de esa parte a cualquier otro nodo dentro de la misma parte. Se dice que una componente del grafo es una componente fuertemente conectada si esto es posible respetando la dirección de los enlaces. En la Web se está dentro de una componente fuertemente conectada si es posible ir desde cualquier sitio a cualquier otro sitio siguiendo enlaces.

No toda la Web de Chile es fuertemente conectada. En el Cuadro 3.7 se muestra el número de componentes fuertemente conectadas encontradas en la colección (considerando solamente sitios que tienen al menos grado interno o externo no nulo). Se aprecia la aparición de una componente gigante [14], lo que es una señal típica de una red libre de escala. En la Figura 3.11 se muestra la distribución de estas componentes, distribución que se ajusta en su parte inicial a una ley de potencias de parámetro 3, 33, comparable con España (3, 84 [7]), Korea del Sur (2, 6 [8]), Argentina (2, 74 [34]) y la Web Global (2, 81 [19]).




Tamaño de la Componente Número de Componentes




1 102869
2 528
3 90
4 32
5 13
6 10
7 4
8 2
9 4
10 3
11 1
13 1
14 1
18 1
22 2
24 1
75 1
76 1
266 1
6275 (Componente Gigante) 1

Cuadro 3.7: Tamaño de las componentes fuertemente conexas.


PIC

Figura 3.11: Distribución de los tamaños de las componentes fuertemente conexas.

3.14. Estructura de enlaces entre sitios

La componente fuertemente conectada gigante puede ser usada como el punto de partida para distinguir ciertas componentes de la Web [14]:

La Figura 3.12 muestra una representación gráfica de estas componentes. La distribución de sitios por componentes se muestra en el Cuadro 3.8. Se muestra el porcentaje sobre el total de los sitios y sobre aquellos con grado interno o externo no nulo. También se muestra la distribución del número de páginas por componente.


PIC

Figura 3.12: Estructura macroscópica de la Web.







Componente Total SitiosSólo con enlacesTotal PáginasDe sitios con enlaces










MAIN IN 0,90 % 2,29 % 4,46 % 5,63 %
MAIN OUT 1,64 % 4,17 % 8,58 % 10,82 %
MAIN MAIN 2,21 % 5,63 % 23,17 % 29,20 %
MAIN NORM 0,90 % 2,29 % 2,78 % 3,50 %





MAIN 5,63 % 14,37 % 38,99 % 49,15 %
ISLAND 65,26 % 10,59 % 24,48 % 4,82 %
IN 9,32 % 23,77 % 19,67 % 24,79 %
OUT 10,18 % 25,96 % 10,37 % 13,06 %
TOUT 6,02 % 15,36 % 3,46 % 4,36 %
TIN 3,16 % 8,07 % 2,55 % 3,21 %
TUNNEL 0,43 % 1,09 % 0,48 % 0,61 %

Cuadro 3.8: Macrocomponentes de la web chilena y la cantidad de sitios y páginas de cada una de ellas.

La estructura de la web presenta una correlación importante con otras características de los sitios. En la Figura 3.13 se muestra la distribucióń de sitios de una sola página por componente. En la componente MAIN hay muy pocos sitios de una sola página, mientras que en la componente ISLAS se encuentra aproximadamente el 66 % de dichos sitios. Se observa, además, que el tipo de sitio también tiene un grado de correlación con la componente: en IN se encuentran más redirecciones y páginas con links, mientras que el caso general es tener una mayor cantidad de sitios con páginas que utilizan Java/Javascript o Flash.


PIC

Figura 3.13: Distribución de los sitios de una página por Macrocomponente. Se indica el motivo por el cual estos sitios tienen una página según la recolección.

Otra variable que puede ser importante es la cantidad de información por componentes. En el Cuadro 3.8 se observa que la componente MAIN es la que tiene el mayor porcentaje de páginas, y en la Figura 3.14 se observa que es esta misma componente (en particular MAIN-MAIN) la que tiene la mayor cantidad de enlaces a documentos no HTML que presentan información escrita.


PIC

Figura 3.14: Distribución de los documentos de texto no HTML separados por Macrocomponente.