Características de la Web Chilena 2007

Ricardo Baeza-Yates
Yahoo! Research
Centro de Investigación
de la Web
Eduardo Graells
Centro de Investigación
de la Web
Mayo de 2008

Contacto: Ricardo Baeza-Yates. Descargar en formato PDF (4 MB)


Resumen

En Octubre de 2007 se llevó a cabo una recolección masiva de páginas de la Web de Chile utilizando el sistema WIRE, desarrollado en el CIW. Del análisis de estos datos destacan las siguientes observaciones:

  • La Web chilena está compuesta por al menos 200,000 sitios, y estos sitios contienen más de 9 millones de páginas. Muchas de sus características son muy similares a las de la Web global en general.
  • Un 5, 63 % de los sitios están conectados entre sí a través de enlaces y tienen el 38, 99 % de las páginas. Por otro lado, un 65, 26 % de los sitios está completamente desconectado en términos de enlaces, pero representan un 24, 48 % de las páginas.
  • Un sitio promedio tiene 48, 19 páginas, contenidas en 0, 69 MiB, con 1, 07 referencias desde otros sitios.
  • En total se conocen 190,577 dominios. Un dominio promedio tiene 1, 05 sitios y 50, 57 páginas, contenidas en 0, 73 MiB.
  • Cerca de 15 de las páginas chilenas fue creada o actualizada en el último año, lo que implica un alto grado de crecimiento y dinamismo.
  • Alrededor del 81 % de las páginas de Chile está en español y cerca de un 17 % en inglés. Otros idiomas tienen una presencia muy leve.
  • Los sustantivos que más aparecen en la Web chilena son: Chile, web, comentarios, sitio, Santiago, noticias y servicios.
  • Los países más referenciados desde Chile son China, Argentina, Alemania, México y España, y en general el número de referencias a países extranjeros está relacionado con el volumen de intercambio comercial.
  • Los sitios que reciben más enlaces son sii.cl, uchile.cl, mineduc.cl, meteochile.cl y corfo.cl.
  • Los proveedores de hosting con mayor número de sitios son IFX Networks, T-Chile, VirtuaByte, PuntoWeb, DattaWeb y ChileAdmin.

Respecto a la calidad de las páginas y sitios:

  • De todos los sitios, el 14 % más grande de ellos contiene el 99 % de la información en la Web chilena, medida en el número de bytes contenidos en sus páginas.
  • Cerca de un 24 % de los sitios de Chile no son fáciles de encontrar ya que están hechos con tecnologías no visibles para los motores de búsqueda, como Flash y Javascript.
  • Un 26 % de las páginas tienen algún valor de contenido en términos de estar referenciadas desde otros sitios. Sin embargo, estas páginas están repartidas en el 7 % de los sitios Web.
  • Cerca de un 7 % de los enlaces ya no existen.

Respecto a las tecnologías Web:

  • De los servidores que entregan información, el servidor Web más utilizado es Apache con 53 %, seguido con un 47 % por Microsoft Internet Information Server.
  • De los servidores que entregan información, el sistema operativo más utilizado es Unix/Linux con 68 %, seguido por Microsoft Windows con 32 %.
  • El generador de páginas dinámicas más usado es PHP con un 79, 36 % de participación en el mercado.
  • El formato de documentos más usado es PDF con un 56, 74 % de participación, seguido por XML con un 26, 69 %.
  • Aproximadamente hay una disponibilidad del cuádruple de archivos con paquetes de software para Linux que para Windows en la Web chilena.
Índice general
1 Introducción
 1.1 ¿Cómo es la Web?
 1.2 Estudiando la Web de un país
 1.3 Recolección de páginas
 1.4 Dificultades en la caracterización de la Web
 1.5 Organización de este informe
2 Documentos
 2.1 Páginas descargadas versus enlaces inválidos
 2.2 URLs
 2.3 Edad de las páginas
 2.4 Títulos de las páginas
 2.5 Texto en las páginas
 2.6 Idioma
 2.7 Vocabulario
 2.8 Páginas Dinámicas
 2.9 Documentos que no están en formato HTML
 2.10 Enlaces entre páginas Web
 2.11 Ordenamiento usando análisis de enlaces
3 Sitios
 3.1 Número de Páginas
 3.2 Sitios con solamente una página
 3.3 Sitios con muchas páginas
 3.4 Títulos de las páginas de un sitio
 3.5 Tamaño de los sitios
 3.6 Edad
 3.7 Proveedores
 3.8 Enlaces internos
 3.9 Enlaces entre sitios
 3.10 Sitios más referenciados
 3.11 Sitios con más enlaces
 3.12 Suma de los puntajes por enlaces
 3.13 Componentes fuertemente conectados
 3.14 Estructura de enlaces entre sitios
4 Dominios
 4.1 Direcciones IP y Software utilizado como servidor
 4.2 Número de sitios por dominio
 4.3 Número de páginas por dominio
 4.4 Tamaño de los dominios
 4.5 Enlaces entre dominios
 4.6 Dominios de primer nivel
 4.7 Dominios externos de primer nivel
5 Conclusiones
Bibliografía