ponsati

ISIDRO F. AGUILLO
CINDOC, C.S.I.C

Problemas metodológicos en la recogida de datos por Internet
(Viernes 5, 11 h 15)

Resumen: En los últimos años hemos asistido a un notable esfuerzo internacional para desarrollar indicadores de la Sociedad de la Información que se ha centrado fundamentalmente en la obtención de datos de infraestructura, necesidades tecnológicas e impactos económicos y sociales. Sin embargo se ha prestado escasa atención a los indicadores de contenidos lo que eventualmente puede agrandar la llamada brecha digital y conducir a unos evidentes colonialismos culturales dados los importantes sesgos lingüísticos de la Web.
Las ventajas de este tipo de estudios son muy relevantes en el entorno académico y de
investigación ya que la presencia en el Web refleja mas y mejor las actividades de este sector, alcanzando una mayor audiencia que la que se obtiene con otros medios tradicionales de comunicación científica.
Desde un punto de vista práctico los mejores métodos para obtener información cibermétrica son los indirectos basados en la utilización de motores de búsqueda. Sin embargo ya pesar de que las citadas herramientas vehiculizan hasta el 80% del tráfico en Internet, todavía presentan numerosos sesgos y limitaciones que hacen necesario un análisis cauteloso de las técnicas a utilizar y los resultados obtenidos.
En primer lugar los citados motores están lejos de indizar de forma completa la Internet pública. Constituida tanto por el Web, del que los mejores buscadores apenindizan un tercio, como por la llamada Internet invisible (que recibe su nombre de la incapacidad de los motores para recogerla en sus bases de datos), su tamaño crece todavía exponencialmente y sus contenidos, además de extraordinariamente volátiles, son de una irregularidad formal y sustantiva muy notable.
No obstante y aunque pudiera parecer que el uso de estas herramientas con fines descriptivos presentaría importantes sesgos, la realidad es que muestras suficientemente amplias pueden ser adecuadamente significativas para extraer patrones objetivos.

Conocer las limitaciones ayuda a mejorar los métodos y resultados. Se recomienda la utilización de conjuntos de herramientas bien de forma consecutiva o simultánea, lo que amplia la población muestral (virtual) objeto de estudio y permite cancelar lagunas o sesgos individuales. Esto solo es posible con herramientas automáticas, configurables por el usuario, en las que la programación de tareas repetitivas incremente la obtención de muestras de tamaño adecuado.
Los estudios de la Web, por la propia heterogeneidad de la misma deben ser estratificados recogiendo el mayor número de variables posibles en un plazo fijo y corto que reduzca las fuentes de error derivadas de la dinámica cambiante de la red. Ello plantea un problema obvio pues la Web ni es ni mantiene estructura de base de datos. Así resulta que no existen campos delimitados como tales ni mucho menos existe un control documental de los mismos. En estos casos hay que recurrir a sistemas más sofisticados de volcado y extracción selectiva de secuencias de caracteres ("parsing"), que pueden resultar extremadamente eficaces pero cuya aplicación no es generalizable.
Por último cabe recurrir a métodos directos de mapeado de sedes que tienen unas elevadas exigencias de recursos informáticos y que pueden ser sistemas extraordinariamente lentos.
Resumiendo, la obtención de datos en Internet plantea numerosos problemas técnicos, pero un buen conocimiento de la estructura hipertextual de la Web, de las limitaciones y sesgos de los motores de búsqueda y sobre todo la utilización de herramientas automáticas personalizables ("de segunda generación") pueden permitir la extracción de estadísticas fidedignas acerca de los contenidos en la Web.

Ponencia
Enlaces:
CINDOC
Cybermetrics