Biblioteca del Congreso de EEUU frente al desafío de archivar millones de tuits

Biblioteca del Congreso de EEUU frente al desafío de archivar millones de tuits

Alrededor de 400 millones de tuits: esa es la gigantesca suma de documentos que recibe cada día la venerable Biblioteca del Congreso estadounidense, que es ya la más grande en títulos depositados del mundo, lo que significa 170.000 millones de micro-mensajes en este momento, por lo que los desafíos de archivo son inmensos.

Todos los mensajes de 140 caracteres difundidos públicamente en la red social desde su creación en 2006 son archivados electrónicamente, según la institución de Washington, que acaba de publicar un resumen de este archivo tan particular.





Entre los mensajes guardados para la posteridad se encuentran el primero que se publicó en la ahora famosa red social, firmado por uno de sus cofundadores, Jack Dorsey, o el de Barack Obama anunciando su elección como presidente de Estados Unidos en 2008.

Pero, al contrario de lo que ocurre con los archivos tradicionales, o incluso con los almacenamientos digitales de páginas de internet, los mensajes de Twitter llegan en flujo continuo, aumentan cada día y son cada vez más rápidos. Los tuits son muy variados, entre los mensajes originales, los verdaderos y los falsos retuits. Y esto, en todas las lenguas.

La Biblioteca recibió hasta 500 millones de tuits diarios el pasado mes de octubre, un gran aumento en comparación con los 140 millones de febrero de 2011, tras haber firmado un acuerdo con la red social, que le “dona” sus tuits a través de una pequeña sociedad de Colorado (oeste de EEUU) llamada Gnip. Pero este regalo es muy pesado: más de 133.000 GB.

Sin embargo, la institución se limita a recolocar los tweets borrados o protegidos, anticipando así las críticas sobre la vida privada. Por otra parte, sólo autoriza el acceso a los tuits hasta seis meses después de su publicación, que es cuando llega el momento de borrarlos.

Para el almacenamiento, el trabajo es delicado, sobre todo, cuando se registra un “pico” de tuits sobre un acontecimiento en particular, como el ocurrido durante el tsunami en Japón de 2011, que generó miles de mensajes por segundo, según el director operacional de Gnip, Chris Moody.

Periódicos del siglo XVIII

Pero no es tanto el almacenamiento como la explotación de los datos lo que supone un problema, según Moody.

“La tecnología para que los investigadores accedan a estos datos está muy por detrás (de la) que permite producirlos o distribuirlos”, subraya la institución. Y para eso “no podemos poner sólo a tres ingenieros”, reconoció el jefe de Twitter, Dick Costolo.

Por otra parte, “esto supone una indexación pertinente” cuando las informaciones de los tuits son menos importantes que su localización, su fecha, la aplicación utilizada o el número de “seguidores” del emisor, precisa Louise Merzeau, que anima en Francia talleres sobre el archivo web dirigidos por el Instituto Nacional del Audiovisual.

La Biblioteca no ha podido todavía responder a las 400 peticiones de investigadores del mundo entero que han solicitado consultarlo desde que nació el archivo en 2010 y que trabajan en temas tan variados como el periodismo ciudadano, las tasas de vacunación o las previsiones bursátiles.

Realizar una búsqueda entre los datos de 2006-2010 tomaría hasta 24 horas, un tiempo “inapropiado” según la Biblioteca, que afirma necesitar, para ser más eficaz, “centenares, sino miles, de servidores”. Una solución “muy costosa” para la institución pública, que se plantea recurrir al sector privado.

¿Y qué hacer, entonces, con esos millones de tuits? “Nos informan sobre la cultura en la que han sido escritos”, como los periódicos del siglo XVIII, que circulaban entre la familia y los amigos, estima Lee Humphreys, profesor de Comunicación en la Universidad Cornell en Washington DC.

Pero los tuits, más fáciles en su acceso, son paradójicamente “más difíciles de seleccionar”. “Tampoco sabemos quién ha leído los tuits”, a diferencia de los destinatarios de los periódicos, según Humphreys.

La página web Politwoops va más lejos: archiva los tuits borrados por los políticos, que son para ellos “borradores clarificadores”.

Las empresas se interesan también en seguir de cerca esta red social, esencialmente con fines de marketing, y representan “la mayoría” de los clientes de Gnip, quien les vende series seleccionadas de tuits, según Moody.

No obstante, a falta de poder acceder a los archivos del Congreso, cada usuario de Twitter podrá archivar sus propios tuits, gracias a una nueva opción lanzada por la red social en diciembre.

AFP