Resumen: En los últimos años hemos asistido
a un notable esfuerzo internacional para desarrollar indicadores de la
Sociedad de la Información que se ha centrado fundamentalmente en
la obtención de datos de infraestructura, necesidades tecnológicas
e impactos económicos y sociales. Sin embargo se ha prestado escasa
atención a los indicadores de contenidos lo que eventualmente puede
agrandar la llamada brecha digital y conducir a unos evidentes colonialismos
culturales dados los importantes sesgos lingüísticos de la
Web.
Las ventajas de este tipo de estudios son muy relevantes en el entorno
académico y de
investigación ya que la presencia en el Web refleja mas y mejor
las actividades de este sector, alcanzando una mayor audiencia que la que
se obtiene con otros medios tradicionales de comunicación científica.
Desde un punto de vista práctico los mejores métodos para
obtener información cibermétrica son los indirectos basados
en la utilización de motores de búsqueda. Sin embargo ya
pesar de que las citadas herramientas vehiculizan hasta el 80% del tráfico
en Internet, todavía presentan numerosos sesgos y limitaciones que
hacen necesario un análisis cauteloso de las técnicas a utilizar
y los resultados obtenidos.
En primer lugar los citados motores están lejos de indizar de
forma completa la Internet pública. Constituida tanto por el Web,
del que los mejores buscadores apenindizan un tercio, como por la llamada
Internet invisible (que recibe su nombre de la incapacidad de los motores
para recogerla en sus bases de datos), su tamaño crece todavía
exponencialmente y sus contenidos, además de extraordinariamente
volátiles, son de una irregularidad formal y sustantiva muy notable.
No obstante y aunque pudiera parecer que el uso de estas herramientas
con fines descriptivos presentaría importantes sesgos, la realidad
es que muestras suficientemente amplias pueden ser adecuadamente significativas
para extraer patrones objetivos.
Conocer las limitaciones ayuda a mejorar los métodos y resultados.
Se recomienda la utilización de conjuntos de herramientas bien de
forma consecutiva o simultánea, lo que amplia la población
muestral (virtual) objeto de estudio y permite cancelar lagunas o sesgos
individuales. Esto solo es posible con herramientas automáticas,
configurables por el usuario, en las que la programación de tareas
repetitivas incremente la obtención de muestras de tamaño
adecuado.
Los estudios de la Web, por la propia heterogeneidad de la misma deben
ser estratificados recogiendo el mayor número de variables posibles
en un plazo fijo y corto que reduzca las fuentes de error derivadas de
la dinámica cambiante de la red. Ello plantea un problema obvio
pues la Web ni es ni mantiene estructura de base de datos. Así resulta
que no existen campos delimitados como tales ni mucho menos existe un control
documental de los mismos. En estos casos hay que recurrir a sistemas más
sofisticados de volcado y extracción selectiva de secuencias de
caracteres ("parsing"), que pueden resultar extremadamente eficaces pero
cuya aplicación no es generalizable.
Por último cabe recurrir a métodos directos de mapeado
de sedes que tienen unas elevadas exigencias de recursos informáticos
y que pueden ser sistemas extraordinariamente lentos.
Resumiendo, la obtención de datos en Internet plantea numerosos
problemas técnicos, pero un buen conocimiento de la estructura hipertextual
de la Web, de las limitaciones y sesgos de los motores de búsqueda
y sobre todo la utilización de herramientas automáticas personalizables
("de segunda generación") pueden permitir la extracción de
estadísticas fidedignas acerca de los contenidos en la Web.
Ponencia
Enlaces:
CINDOC
Cybermetrics