Capítulo 5
Conclusiones

En Octubre de 2007, cuando se inició la recolección que dio luz a este informe, se tenían nociones de los resultados que entregaría el análisis posterior de la colecta. Los resultados obtenidos, si bien se acercan a las proyecciones que se habían estimado de acuerdo a los resultados de años anteriores, no dejan de ser sorprendentes. La Web Chilena ha cambiado bastante respecto a los últimos años y, a pesar de estar en constante cambio, sigue manteniendo una estructura similar a la encontrada en años anteriores.

En el Capítulo 2, se analizaron diversas características de los documentos en la colección. El crecimiento en la cantidad de documentos recolectados desde la colecta anterior es notorio,desde 7, 4 millones a 9, 6 millones, lo cual es consecuente con la cantidad de documentos creada o actualizada en los últimos 12 meses.

La distribución de los documentos en diferentes análisis se puede ajustar a leyes de potencias, verificando el modelo de redes libres de escala enunciado en el Capítulo 1, en particular en las distribuciones de contenido, de enlaces y de algoritmos de puntaje por enlaces. Ahora bien, aparte de los análisis matemáticos, también se estudiaron diversas propiedades de los documentos, como el lenguaje, donde se observa que el idioma mantiene una distribución similar a la del estudio anterior: el idioma oficial de Chile, el Castellano, mantiene una presencia cercana al 81 %, mientras que el Inglés tiene una presencia cercana al 18 %. También se observó un aumento en la cantidad de enlaces funcionales y en la cantidad de enlaces que ya no existen, es decir, se han disminuido los otros tipos de errores HTTP. Respecto al contenido de las páginas, el vocabulario sigue la tendencia del año pasado, siendo Chile y su capital parte de los términos más comunes, considerando también la aparición de palabras relacionadas con el comercio, con la educación y con las tecnologías web. En términos de usabilidad, dentro de un sitio han disminuido los títulos compartidos en las páginas pero han aumentado los títulos vacíos.

El Capítulo 3 estudió los 200,000 sitios que contiene la colecta, de los cuales se pudieron recolectar cerca de 111,000. De estos últimos, cerca de 48,000 se identificaron como sitios de una sola página, aunque la mayoría de ellos tenía efectivamente más documentos. El análisis de algunas características de los sitios también presenta leyes de potencias: la distribución de documentos por sitios, la edad en meses, la distribución de enlaces internos y la distribución de enlaces entre sitios, entre otras propiedades.

Si bien los sitios con más documentos y con más contenido, en términos de tamaño, presentan anomalías que perturban los resultados del análisis, los sitios que reciben más enlaces se han mantenido a lo largo de los años. Estos sitios destacan por ser sitios del gobierno, de instituciones educacionales o de medios de comunicación.

La macroestructura de la web también presenta características importantes. Aunque solamente un 5 % de los sitios válidos o no vacíos está fuertemente conectado entre sí, estos sitios tienen el 39 % del total de las páginas. A su vez, un 65, 26 % de los sitios está aislado de los demás, y contienen cerca del 24 % del total de las páginas.

También se estudiaron los proveedores de los sitios que forman la colecta. Una gran mayoría de ellos están ubicados físicamente en Chile, aunque algunos ISP de la lista de proveedores con más sitios están ubicados en el extranjero.

El Capítulo 4 estudió los 190,577 dominios encontrados. La proporción entre sitios y dominios es casi uno a uno si no se consideran los sitios vacíos, aunque la inspección manual de la colecta indica que hay una gran cantidad de dominios con más de un sitio. Por otro lado, las distribuciones de páginas y sitios por dominio se pueden ajustar a leyes de potencias, aunque el ajuste para los sitios no abarca los dominios con mayor cantidad de sitios.

La distribución de direcciones IP para los dominios también se ajusta a una ley de potencias. En estas direcciones se estudió la tecnología que utilizaba el servidor, y en las que entregaron información se encontró que tanto en el sistema operativo como en el servidor utilizado, las tecnologías de código abierto tienen mayor presencia.

Respecto a los dominios extranjeros, se encontró nuevamente, al igual que en los años anteriores, que existe una relación significativa entre la cantidad de enlaces y el intercambio comercial de un país. En general, los países que no cumplen con la relación tienen motivos claramente identificables, en su mayoría de lenguaje.

Finalmente, los análisis presentados a lo largo de los Capítulos permiten no solamente establecer un modelamiento de la Web en términos matemáticos o analíticos, también permiten tener datos concretos que sirven de base para estudios de usabilidad, de mercado y de minería de datos, entre otros. Lo que se ha realizado es una captura de un instante particular de la existencia de la Web, cuya representatividad no se puede poner en duda al ver la constancia que se ha tenido durante los años pasados, y los resultados similares vistos en estudios aplicados a otras Webs nacionales.