En este Capítulo se presenta el análisis individual de los documentos, sin considerar su agrupación en sitios o dominios. Por documento se entiende una página web, aunque también existen documentos con información en formatos distintos a HTML. Las Secciones de estudio son las siguientes:
El recolector de páginas funciona extrayendo direcciones de las páginas que han sido descargadas, y es frecuente que entre estas direcciones aparezcan páginas que ya no existen o que simplemente fueron mal escritas. Cada vez que el recolector se contacta con un servidor Web, éste retorna un código de estado que indica si la página existe o no, o si existe un motivo por el cual no se puede entregar el documento pedido. La Figura 2.1 muestra la distribución de páginas de acuerdo a estos códigos de estado. Existe una gran cantidad de códigos de estado que se han agrupado de la siguiente manera:
La tasa de éxito, superior al 85 %, ha aumentado cerca de tres puntos en relación a la muestra del año 2006 [6]. Lo mismo sucedió con la tasa de enlaces rotos, que subió desde 4 % a 7 %. Puede parecer extraño que hayan aumentado en la misma cantidad los enlaces a páginas existentes como los enlaces rotos, ante lo cual se pueden plantear diferentes hipótesis. Una de ellas es la migración de contenido en los sitios: en la red cada vez es más común que un sitio completo se administre mediante un administrador de contenidos. Este tipo de software permite que los administradores de un sitio manejen su contenido sin tener que involucrarse en el desarrollo (programación) del mismo. De este modo, los enlaces a las diferentes secciones y páginas los maneja el software, asegurando una tasa mayor de enlaces correctos. Sin embargo, ¿qué sucede cuando un sitio migra todo su contenido desde una estructura antigua a una estructura nueva? La consecuencia de esa migración, que desde el punto de vista administrativo del sitio es positiva, puede ser negativa en términos de todos los enlaces que recibía el sitio.
La dirección de una página Web es comúnmente expresada mediante una URL (sigla de Uniform Resource Locator) [12]. Una URL tiene un doble propósito, por una parte identifica un recurso en la Web de manera única y por otra indica cómo es posible acceder a dicho recurso en el servidor.
Las URLs más usadas en la Web son las que corresponden al protocolo de transferencia de hipertextos (HTTP). Estas URLs tienen normalmente la siguiente forma:
http://sitio/directorio/subdirectorio/documento
Por ejemplo, http://www.cwr.cl/projects/WIRE/index.html indica que el sitio a contactar es www.cwr.cl, que el documento que se necesita se encuentra en el directorio /projects/WIRE/ y que se llama index.html. Cuando una dirección no incluye el nombre del documento, se asume que se está buscando un archivo index.html1 dentro del directorio indicado en la dirección.
La longitud promedio de una URL, incluyendo la especificación del protocolo http://, nombre de servidor, ruta y parámetros, es de 75 caracteres. Este promedio es similar al de otros países: 74 para España [7], 69 para Portugal [21], 75 para Argentina [34] y 57 caracteres para la Web global [32]. Esta diferencia con el promedio de la Web global puede tener relación con las nuevas aplicaciones Web, tanto comerciales como sociales, que incluyen una gran cantidad de parámetros en sus direcciones. Esto se corrobora al ver que las direcciones más largas corresponden a páginas dinámicas.
|
|
El 54 % de las URLs tienen entre 40 y 80 caracteres. Los largos se distribuyen de acuerdo con la Figura 2.2, que tiene una distribución log-normal con parámetros estimados μ = 4, 12 y σ = 0, 40.
La profundidad de una página dentro de un sitio se puede definir de dos formas:
En este estudio se analiza la profundidad física de las páginas, que es directamente extraíble a partir de las URLs. La distribución de esta variable se muestra en la Figura 2.3. Se observa que el máximo de la distribución se encuentra en los niveles 2 y 3, siendo este último el único donde las páginas dinámicas detectadas superan a las estáticas.
La edad de una página se determina al observar la fecha de última modificación especificada por el servidor que la contiene. Al ser una variable dependiente de la configuración del servidor, muchas páginas tienen fechas erróneas, que bien pueden ser fechas del futuro o fechas demasiado antiguas, previas a la invención de la Web.
La distribución de las edades de las páginas en términos de meses se muestra en la Figura 2.4. Esta distribución sigue una ley de potencias con parámetro 1, 27.
|
|
En los 12 meses anteriores a Octubre de 2007, cerca de un 19 % de las páginas se creó o se actualizó, lo que indica que la Web chilena está creciendo rápidamente, pero no de una manera explosiva: en los dos estudios anteriores, las tasas de crecimiento eran cercanas al 25 %.
Cerca de un 26 % de las páginas no tiene un título de documento, que junto al 1 % de los títulos por omisión2 , indican que un 27 % de las páginas no tiene un título significativo. En la Figura 2.5 se observa la distribución de los tipos de título: si bien un 73 % de las páginas tiene un título significativo, solamente un 33 % tiene un título único dentro del sitio al que pertenece. Usualmente el título compartido entre las páginas de un sitio es el nombre del sitio.
La distribución de los largos de los títulos se observa en la Figura 2.6. Los títulos en la Web Chilena, de acuerdo a esta distribución, se pueden considerar de un largo adecuado, sobretodo si se comparan con los largos de otros países (en España la mayoría de los largos tiene entre 5 y 10 caracteres). Esta medición es importante porque el título de una página es uno de sus atributos más importantes, tanto en usabilidad (es el identificador dentro de los bookmarks de un usuario) como en difusión (es lo que más se destaca de una página en un listado de resultados de búsqueda).
|
|
De cada página descargada se almacenaron sólo los primeros 100 KiB, lo que es suficiente para la mayoría de ellas. La distribución de la cantidad de páginas por cantidad de texto, incluyendo el código de la página y el contenido, se observa en la Figura 2.7. Esta distribución se ajusta a una ley de potencias con parámetro 3, 56 para páginas de más de 40 KiB, y de 0, 82 para páginas entre 11 y 40 KiB.
WIRE incluye un sistema de detección de idioma basado en stopwords, es decir, palabras que carecen de significado por sí mismas, también llamadas palabras funcionales. La heurística cuenta el número de stopwords dentro del documento para cada idioma del que se tienen stopwords y en base a ellas determina el lenguaje correspondiente. De este modo, se obtuvo la distribución de idiomas de la Figura 2.8.
La proporción de los idiomas se ha mantenido prácticamente constante, el año 2006 el Castellano tenía una presencia de 80, 21 %, comparado con el 81, 34 % actual. El resto de las páginas en idioma extranjero se encuentra prácticamente en su totalidad en inglés. En otros países el idioma oficial no tiene tanta presencia: 62 % en España [7] y 63 % en Argentina [34].
Al hablar de vocabulario se requiere definir qué es una palabra. La definición utilizada en este informe es “cualquier secuencia alfanumérica de uno o más caracteres de largo”. Se incluyen los caracteres especiales del castellano, como la letra ñ y los tildes. También se realiza la conversión de las entidades HTML para representar esos carácteres3 .
Las diez palabras más frecuentes: de, la, y, en, a, el, que, los y por; naturalmente todas ellas son stopwords. En la Figura 2.9 se muestra la distribución de la frecuencia de las palabras presentes en la colección, obteniendo una ley de potencias con parámetro 0, 84, al igual que el año 2006.
En el Cuadro 2.1 se incluye una Nube de Etiquetas (TagCloud), con los sustantivos más frecuentes en la Web chilena. Dentro de esta nube el tamaño de las palabras es proporcional a su frecuencia con respecto a las otras palabras de la nube (es decir, las palabras más pequeñas tienen menor frecuencia que las palabras más grandes, pero aún así son parte del grupo de palabras más frecuentes). Se observa que, dejando de lado los nombres de ciudades y fechas, en general los términos corresponden a servicios, comercio y tecnologías recientes: palabras frecuentes en foros, blogs, otros tipos de sitios sociales y administradores de contenido.
|
acceso accesorios actividad actividades acuerdo aire alumnos amigo amigos anuncios argentina arica arte
artículo artículos audio autor avisos ayuda bitácora blog búsqueda calidad casa categorías central
centro chile chilena ciencias ciudad clases clasificados clave click colegio comentario
comentarios comercio compra comprar comuna comunidad condiciones contacto
contraseña copyright correo cosas crear cuenta cultura curso cursos datos deportes derechos
desarrollo digital dirección director diseño domingo dvd día educación email empresa empresas
encuentro equipo equipos era escuela estado estados estudiantes estudio estudios eventos experiencia
familia fax fiestas fin final flores fono forma foro foto fotos gente gobierno gracias grupo hecho
historia hora hotel hoy imagen información inicio internacional internet juegos jueves
lectores ley libre libres libro licencia links lugar lunes luz mapa martes medio mensaje mensajes
mercado mesa metropolitana millones mundo música nacional nada nivel nombre nosotros
noticias oferta ofertas online palabras parapente parte país personas plaza poder política
precio primera primero problemas producto productos profesionales programa proyecto
proyectos publicar publicidad puerto página radio recursos red región respuesta resultados rss salud
santiago seguridad servicio servicios sexo sistema sitio sitios social sociales
sociedad software sur tags tecnología tema temas tiempo tipo todas todo todos
trabajo trance turismo universidad usuario usuarios venta vida video videos
viernes visitas web zona
|
Más de 3, 2 millones (34 %) de las páginas descargadas eran páginas dinámicas, es decir, páginas generadas en el momento de ser solicitadas sin que existieran previamente. Esto es lo normal cuando hay una consulta a una base de datos involucrada en el proceso de desplegar las páginas.
A pesar de que la recolección aumentó su tamaño, la cantidad de páginas identificadas como dinámicas se ha mantenido. Esto se debe a que una gran cantidad de las páginas dinámicas no se puede identificar directamente: WIRE realiza tal detección a partir de la URL de la página, sea a través de la extensión del archivo (lo que indica la tecnología con la que se generó la página) o a través de un signo ?, que indica los parámetros que recibe la página. Sin embargo, técnicas como URL rewriting impiden la determinación directa del tipo de página. Esta técnica, por un lado, es beneficiosa para los usuarios, ya que genera URLs más “amigables”, mientras que por otro, usualmente esta técnica genera demasiadas páginas duplicadas que tienen el mismo contenido pero distintas URLs de acceso, por lo que cifras como la cantidad de páginas que tiene un sitio, así como su tamaño, se ven distorsionadas.
En la Figura 2.10 se muestra la distribución de páginas dinámicas de acuerdo a la aplicación que las genera. La aplicación más usada es PHP 4 , una tecnología de código abierto que domina la Web Chilena con un 79, 36 % de participación, aumentando 4 puntos porcentuales respecto al año anterior. Le sigue la tecnología ASP [26], propietaria y de plataforma restringida, con un 18, 07 %.
Se encontraron aproximadamente 1, 5 millones de enlaces a documentos de texto en formatos distintos a HTML, siendo los más populares PDF (56, 74 %) y XML (26, 69 %). Esto indica que la proporción de enlaces a documentos en formatos estándares ha aumentado en relación a los formatos cerrados. En la Figura 2.11 se aprecia la distribución de los enlaces a los formatos más presentes. Respecto al formato PDF, también es el más usado en otros países, como en Austria [30], Brasil [27], Corea del Sur [8], Grecia [20], Portugal [21] y Argentina [34].
Se encontraron muchos enlaces a archivos multimedia: más de 100 millones de enlaces a imágenes, 166 mil enlaces a audio, y 35 mil enlaces a vídeo. La distribución de enlaces a los formatos de estos medios se muestra en la Figura 2.12.
Las imágenes GIF son las más populares en la Web Chilena con un 77, 26 % de los enlaces. Esto se debe a que son utilizadas como elementos gráficos en el diseño de las páginas, al ser un formato con compresión sin pérdida, y a que también se utilizan en el contenido, sea a través de botones u otros elementos gráficos. Le sigue JPG, con un 18, 26 %, un formato de compresión con pérdida que es mayormente usado para almacenar fotografías. El formato PNG, a pesar de haber nacido como un reemplazo para GIF, no ha logrado aumentar su participación debido a la falta de soporte de los navegadores, en particular del más usado. El resto de los formatos presentes tiene una presencia marginal.
En audio, el formato MP3, que se había mantenido líder hasta el año 2006, ha cedido parte de su participación al formato WMA. El primero tiene una participación de 39, 23 %; el segundo, 40, 29 %. El tercer formato, PLS, no es un formato de audio por sí mismo, más bien es un formato de listas de reproducción. Los archivos en este formato probablemente son los mismos que han estado presentes desde los estudios en años anteriores.
En vídeo, el formato con mayor presencia es WMV (49, 59 %), seguido por QT (18, 20 %) y MPEG(10, 65 %). El formato RM, al igual que en los años anteriores, sigue bajando su presencia (10, 54 %), mientras que AVI parece mantenerse constante (6, 83 %) y FLV ha aumentado algunos puntos porcentuales (4, 20 %). En la Web Global, probablemente el formato con mayor presencia es FLV, ya que es el formato utilizado por las redes sociales de publicación de vídeo.
Se encontraron más de 159 mil enlaces a archivos comprimidos, más de 102 mil enlaces a archivos de programas y más de 27 mil enlaces a archivos de código fuente en diversos lenguajes. La distribución de los enlaces se muestra en la Figura 2.13.
La distribución de archivos comprimidos muestra un dominio de los formatos ZIP (53, 64 %) y GZ(24, 47 %). El formato ZIP es usado con frecuencia para distribuir software para Windows, mientras que el formato GZ suele ser usado con frecuencia para distribuir software para Linux. Los archivos RAR (20, 88 %) suelen ser usados para distribuir contenido arbitrario. El formato TAR (1 %)se utiliza primariamente en Linux, aunque es difícil encontrar archivos de formato TAR, ya que más que un formato comprimido es un contenedor que es luego comprimido a GZ. Otros formatos tienen una presencia despreciable.
Respecto al software, sin considerar que una gran cantidad se distribuye en formatos comprimidos, los formatos con mayor presencia son RPM (59, 06 %) y EXE (23, 12 %). Sin embargo, DEB (17, 82 %) es el tercer formato con presencia (el resto es despreciable), y con ello el software en formato para Linux tiene el triple de presencia que el formato para Windows. Esto no concuerda con el mayor uso de Windows por parte de los usuarios, y se puede deber a que una aplicación de Windows se distribuye como un único ejecutable mientras que una aplicación de Linux se distribuye mediante una gran cantidad de paquetes.
La distribución de código fuente muestra el gran auge que ha tenido Javascript (28, 35 %) como lenguaje para construir páginas web que reaccionen dinámicamente ante las acciones del usuario, por lo general en sitios que utilizan AJAX para crear aplicaciones basadas en Web. Sin embargo, el código para aplicaciones C y C++ tiene una mayor presencia (59, 05 %). Probablemente esta proporcióń se debe a que un sitio completo utiliza pocos archivos JS con toda su funcionalidad, mientras que una aplicación en C o C++ contiene una gran cantidad de archivos. Sin embargo, no se puede dudar que la cantidad de enlaces a código fuente C y C++ ha aumentado notoriamente: el año 2006 era cercana al 27 %.
El número de enlaces que recibe una página Web se llama “grado interno”, y el número de enlaces que sale de una página se llama “grado externo”. Las distribuciones de ambos grados se muestra en las Figuras 2.14 y 2.15.
Al ajustar una ley de potencias a los datos se obtiene un parámetro 1, 87 para el grado interno, comparable con África (1, 9, [13]), Argentina (1, 71, [34]) y España (2, 11, [7]). Para la Web Global el valor de este parámetro es 2, 1 [29]. Para el grado externo se obtiene un parámetro 3, 14 en la parte central (entre 12 y 100 enlaces), comparable con el valor 3, 34 obtenido en Argentina [34].
En la Figura 2.16 se muestra la relación entre tamaño y el grado interno/externo de las páginas. Existe una correlación entre el grado externo y el tamaño de las páginas, puesto que una página no puede contener demasiados enlaces en caso de ser es muy pequeña. Respecto al grado interno y el tamaño de las páginas la correlación no es evidente, pero sí se aprecia que páginas de menor tamaño reciben una fracción menor de enlaces.
Existen varios algoritmos de enlaces que intentan inferir cuan importante es cada página en la Web, utilizando la información de los enlaces que recibe cada página. En este estudio se comparó a distribución de Pagerank [28] con una variación del algoritmo HITS [24], en el cual se utilizó la Web completa como el conjunto de análisis. Esto último puede verse como una versión estática de HITS.
El algoritmo Pagerank calcula para cada página un puntaje que refleja la cantidad de enlaces que recibe desde otras páginas con un alto número de enlaces. De cierto modo es una medida de la cantidad y calidad de los enlaces recibidos. El algoritmo de HITS calcula dos puntajes para cada página: Hub y Authority. El puntaje Hub indica qué tan buena es la página como fuente de enlaces, en términos de qué tan buenos son los enlaces que tiene la página hacia otras páginas. El puntaje Authority indica qué tan buena es la página como recurso de información o contenido, en términos de la calidad de los enlaces que recibe. La distribución de los puntajes se muestra en la Figura 2.17. Se destaca que los tres puntajes pueden ser aproximados con una ley de potencias: Pagerank, con parámetro 1, 31 en su parte inicial y 2, 19 en su parte central; el puntaje Authority, con parámetro 1, 70 en su parte central; y el puntaje Hub, con parámetro 3, 87 en su parte central.
Por la fórmula del cálculo de PageRank, incluso páginas sin grado interno tienen un puntaje no nulo. A pesar de ello, un 62 % de los documentos posee el 99 % del puntaje Pagerank total. En cambio los puntajes Hub y Authority sí permiten que un documento tenga puntaje nulo. De esta manera, un 38 % de las páginas tiene puntaje Hub no nulo, y un 26 % tiene puntaje Authority no nulo.
De una muestra aleatoria de 10,000 documentos, descartando los que tienen algún tipo de puntaje nulo, se estudió una posible correlación entre los puntajes por enlaces. De acuerdo a la Figura 2.18 no se puede establecer una relación directa, aunque una cantidad no despreciable de documentos con alto puntaje Pagerank también tienen alto puntaje Hub.