El archivo de Tuits de la Biblioteca del Congreso de los EEUU

Un tuit es un nuevo tipo de documento que debe formar parte de la colección de una biblioteca nacional, y representa además un alto valor para su misión. Debido a que nuestra sociedad utiliza los medios sociales como forma prioritaria de comunicación y expresión creativa, estos nuevos medios están sustituyendo muchas veces las cartas, periodicos, revistas y otros recursos que las bibliotecas de investigación deben recoger y conservar (Gayle Osterberg, director de Comunicación de la Biblioteca). Incluso los emails están siendo sustituidos por estos medios sociales como formas de comunicación prioritaria.

La misión de la Biblioteca del Congreso de los EEUU es, según Osterberg, recoger la historia de America, su Memoria, y adquirir aquellas coleciones que tienen valor para futuras investigaciones. Por esta razón la Biblioteca comenzó adquiriendo el archivo de tuits desde marzo de 2006 hasta abril de 2010,  que fué ofrecido gratuitamente por Twitter a través de la empresa gnip (http://gnip.com/). 

A partir de ese momento, abril de 2010, comenzó a almacenar los tuits de Twitter y su colección no ha parado de crecer hasta la cifra actual de 170 mil millones de tuits (85 terabytes de datos). En 2010, se procesaban 50 millones de tuits cada dia, y en octubre de 2012, la cifra diaria de tuits que se recibian era casi la mitad de mil millones de tuits (http://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the-library-of-congress/). 
 




“Los medios sociales dan la oportunidad a todos squellos que no tienen tiempo de escribir, de registrar una parte de la historia,” dice Osterberg. “Esta visión de lo que está pasando actualmente, desde los personajes de a pié, es de gran valor para los investigadores y políticos"

En este libro blanco se presentan los objetivos alcanzados hasta el momento por la Biblioteca del Congreso y los proyectos de futuro de cara a la conservación y organización de los tuits para la investigación.

Aunque el objetivo de la Biblioteca sea ofrecer estos datos, de forma organizada, a los investigadores, el reto actual está en el coste del procesamiento de los datos, ya que ante tal volumen, se necesitan servidores potentes que ofrezcan los datos de forma rápida.  Una simple pregunta a la base de datos del 2006-2010, tarda unas 24 horas. Aumentar la velocidad a un nivel razonable requeriría la compra de cientos de servidores, hecho que la biblioteca no puede asumir. No se sabe para cuando los tuits estarán disponibles para los investigadores.

Incluso aunque fuera posible acceder de forma rápida al archivo de Twitter, que los datos tengan sentido es otra cosa. ¿Cómo recuperar contendos con significado? O ¿cómo evaluar el sentimiento humano, las emociones, en los tuits?.

Todos los investigadores están de acuerdo en que Twitter es una herramienta muy poderosa para los estudios sociales, pero depende de que la Biblioteca del Congreso de los EEUU haga posible su consulta. "Algún dia, nuestros tuits seguirán viviendo aunque nosotros no estemos ya aquí" (http://business.time.com/2013/02/25/what-the-library-of-congress-plans-to-do-with-all-your-tweets/)


Comentarios

Entradas populares de este blog

¿Qué es la comunicación científica?

Plan de marketing para bibliotecas