Fermer
Elli Zeno
Focus | 7 oct.
7 mn

Archiver les tweets : l'impossible projet
Il y a 6 ans, la Library of Congress et Twitter s'engageaient à archiver TOUT le contenu publié sur le réseau social. Résultat : un cauchemar sans fin.

Il y a 6 ans, la Library of Congress et Twitter s'engageaient à archiver TOUT le contenu publié sur le réseau social. Résultat : un cauchemar sans fin. © Josselin Rocher
En 2010, Twitter et la Library of Congress, la plus grande bibliothèque du monde, ont annoncé un étrange partenariat. Les deux parties s’engageaient à archiver tous les tweets postés sur le réseau social. Une honorable institution bicentenaire qui s’associe à une startup de 4 ans, voilà qui ne manque pas de surprendre.

Et même si le projet soulevait quelques interrogations, personne ne doutait que la Library of Congress s’en acquitterait à la perfection. Si Twitter sait gérer des millions de tweets tous les jours, la plus grande bibliothèque du monde saurait bien le faire aussi.

Et pourtant, rien n’a fonctionné comme prévu. Six ans après l’annonce, la Library of Congress n’a pas initié la moindre tentative d’exploitation des tweets archivés, et elle ne sait pas quand elle le fera. Aucun ingénieur ne travaille dessus. Jusqu’à présent, le staff de la bibliothèque se contente de stocker les tweets non traités sur un serveur, un peu comme s’il jetait des vieux manuscrits dans une armoire. Il n’y a aucun moyen d’explorer cette collection. Pendant ce temps, la valeur de cette vaste mine de tweets ne cesse d’augmenter. Au grand dam des chercheurs, qui espéraient utiliser ces archives pour lancer des recherches sur le langage et la société, et qui faute de mieux doivent acheter très cher à Twitter l’accès à ces données.

Nœud gordien

Pour la Library of Congress, c’est un vrai nœud gordien, un défi technique inédit qui devient chaque jour plus compliqué, quand plus de 500 millions de tweets quotidiens se déversent sur ses serveurs.

« C’est un avertissement sur ce qui nous attend avec le Big Data, et nous devons être très attentifs sur les partenariats que nous signons », explique Michael Zimmer, professeur à l’Université du Wisconsin-Milwaukee qui s’est penché sur les efforts de la bibliothèque. Quand les bibliothèques n’avaient pas de ressources pour numériser les livres, seule une entreprise comme Google pouvait mettre suffisamment d’argent et de ressources humaines pour le faire. C’est bien là le cœur du problème. »

Bien sûr, en 2010, quand le partenariat a été annoncé, les choses paraissaient plus simples.

À l’époque, les utilisateurs de Twitter ne postaient que 55 millions de tweets par jour. C’était déjà un volume conséquent, mais qui n’a plus rien à voir avec le trafic de Twitter aujourd’hui. Et les tweets étaient moins compliqués, sans photos ni vidéos attachées, juste des textes.

Dans un document de deux pages, la Library of Congress s’engageait à ne pas conserver les tweets de comptes privés, ni les tweets supprimés. Elle ne stockerait pas non plus les images et les sites liés aux tweets. Et les tweets ne seraient disponibles que six mois au moins après leur publication.

500 millions de tweets par jour

Mais cette mission s’est transformée en un défi bien plus coriace que prévu. Le flux de tweets a pris de plus en plus de volume, pour atteindre 140 millions par jour en 2011, puis 500 millions en 2012. Et les tweets eux-mêmes n’ont pas arrêté de grossir, s’enrichissant de conversations, de photos, de vidéos, de vidéos live… Toutes ces données alourdissent les processus de téléchargement de la Library of Congress et ont obligé ses équipes à concevoir un système d’archives qui s’adapterait aux métamorphoses de Twitter.

En 2013, alors que des chercheurs réclamaient l’accès aux archives, la bibliothèque a reconnu que « les choses n’avançaient pas aussi bien que prévu ». Elle n’avait pas encore défini de procédure d’utilisation de ces tweets stockés, et une simple recherche sur les tweets publiés entre 2006 et 2010 pouvait prendre jusqu’à 24 heures.

En parallèle, Twitter lui-même a accru ses efforts pour vendre ses archives. En 2010, la startup a conclu un partenariat avec une entreprise de gestion de données, qu’elle a rachetée en 2014 pour valoriser l’utilisation de ses données.

Mais les prix affichés par Twitter sont prohibitifs et rendent les données inaccessibles aux chercheurs des universités. Le flux de tweets mis gratuitement à disposition par Twitter est insuffisant pour mener des recherches significatives – même s’il est plus généreux que d’autres réseaux sociaux, comme Facebook, qui sont encore plus sourcilleux dans le partage de leurs données.

Le projet reste prioritaire

Pour les chercheurs, les tweets ont de grands avantages : ils sont courts et bien structurés. D’où leur espoir qu’un jour la Library of Congress trouvera un moyen de gérer correctement ce flux. De son côté, l’institution déclare que ce projet est toujours prioritaire et qu’elle continue de plancher sur un moyen efficace de cataloguer les petabytes d’informations collectées.

Quant à Twitter, la startup assure qu’elle n’a pas renoncé au projet et reste optimiste sur la capacité de la Library of Congress à trouver un process de traitement des flux de tweets.

Tout le monde veut trouver une solution, mais les enjeux sont faussés. Twitter encaisse des millions de dollars en vendant ses données. Même si une fraction de ces revenus provient de chercheurs, si les archives de la bibliothèque deviennent publiques, il risque de perdre le contrôle sur l’un de ses actifs les plus précieux.

Qu’il est loin, le temps où les employés de la Library of Congress étaient impatients de faire de nouvelles découvertes en exploitant ce flux infini de données.
Crédits photo : Josselin Rocher
Partager :
Article paru dans le numéro #126 PRESCIENCE
Recevoir le magazine Inscrivez-vous pour recevoir chaque semaine l'essentiel de la culture, du business et de l'art de vivre.
Fermer
Archiver les tweets : l'impossible projet à un ami.
(*) Obligatoire
Fermer
Modifiez votre mot de passe
Fermer
Veuillez saisir votre identifiant
Fermer
Bienvenue sur Pluris
, complétez le formulaire pour terminer votre inscription.