Archivage des contenus

Archivage des contenus web : des évolutions en perspective

Le décret du 19 décembre 2011 permet de mettre en oeuvre le dépôt légal des publications numériques. Un premier pas vers l’accès aux contenus des sites Internet archivés par la Bibliothèque nationale de France et l’Institut national de l’audiovisuel.

Il est particulièrement tentant de recourir à un site Internet d’archivage pour consulter des pages web devenues inaccessibles au public, voire de retrouver la trace d’une infraction. Plusieurs sites Internet, tels que « archive.org », sont consacrés à l’indexation des contenus disparus de la toile depuis plusieurs années, qu’ils mettent à disposition du public, en accès libre.

Certains ont essayé d’utiliser les contenus ainsi archivés comme moyen de preuve devant les tribunaux, bien souvent sans succès. Les juges rappellent, en effet, de façon constante, que les captures d’écran effectuées par un huissier à partir du site « archive.org » sont dépourvues de force probante. Motif retenu : « ce constat a été effectué à partir d’un site d’archivage exploité par un tiers à la procédure, qui est une personne privée sans autorité légale, et dont les conditions de fonctionnement sont ignorées » [1].

Le décret n°2011-1904 du 19 décembre 2011, entré en vigueur le 22 décembre 2011, laisse cependant envisager que cette solution pourrait bientôt évoluer.

Les contenus web scannés et conservés par la BNF et l’INA

Le contenu de l’Internet, pourtant en constante évolution, n’a jamais été considéré comme faisant partie du patrimoine culturel national, et donc conservé en tant que tel. Initialement inscrit dans la loi DADVSI ( droit d’auteur et droits voisins dans la société de l’information) du 1er août 2006, le dépôt légal des services de communication au public en ligne, c’est-à-dire de manière générale des sites Internet, est demeuré lettre morte en l’attente du décret qui déterminerait les modalités de sa mise en œuvre.

C’est désormais une réalité puisque le décret du 19 décembre 2011 rend obligatoire le dépôt légal des sites Internet dont le nom de domaine a été enregistré auprès de l’AFNIC, (notamment le « .fr ») ainsi que les autres sites (« .com », « .net », etc), dès lors qu’ils sont édités par une personne domiciliée en France ou produits sur le territoire français. Tous les types de site Internet sont concernés par le dépôt légal (sites commerciaux, blogs, plateformes vidéos, etc.), à l’exclusion de ceux relevant de la sphère privée (correspondance, espaces privés des réseaux sociaux, etc).

C’est la Bibliothèque nationale de France (BNF) qui s’est vu attribuer la mission de conserver l’ensemble des contenus web. L’Institut national de l’audiovisuel (INA) est quant à lui plus spécifiquement chargé de la collecte et de la conservation des sites Internet consacrés à la radio et à la télévision.

Concrètement, les éditeurs de sites Internet n’ont pas de démarches particulières à entreprendre puisque la collecte des contenus est effectuée via un logiciel d’archivage automatique mis en œuvre par la BNF, ce au moins une fois par an. La BNF peut cependant solliciter directement des éditeurs la remise des mots de passe et clés d’accès nécessaires à la collecte de documents protégés, ou une copie de ces documents (par exemple, pour les contenus accessibles dans le cadre d’un abonnement payant en ligne), ainsi que toute donnée technique nécessaire à la communication et à la conservation des documents. Cette collecte constituant une exception au droit d’auteur, le fait de s’y opposer est sanctionné d’une amende de 75 000 euros.

Un accès encore limité aux contenus archivés

Le dépôt légal des contenus Internet n’apparaît pas seulement comme le moyen de constituer le patrimoine culturel numérique français. La collecte et l’archivage des contenus web par la BNF, à supposer qu’ils respectent certaines précautions techniques garantissant leur intégrité, offrent en effet la perspective de pouvoir réutiliser ces contenus à titre de preuve dans le cadre d’une procédure judiciaire. Cette perspective est cependant encore limitée par le fait que l’accès aux archives de la BNF est expressément réservé à des chercheurs dûment accrédités à cet effet. La BNF précise « qu’il faut justifier d’une recherche d’ordre universitaire, professionnel, ou personnel, nécessitant le recours aux collections de la Bibliothèque de recherche » pour accéder aux archives de l’Internet.

En outre, les contenus archivés ne sont pas exhaustifs dans la mesure où le décret prévoit que la collecte se fera « au moins une fois par an », de sorte qu’on peut craindre que de nombreux contenus ne puissent être retrouvés. A ce titre, la BNF précise qu’elle ne peut archiver tous les sites et toutes leurs pages, mais qu’elle constitue des échantillons représentatifs de l’Internet français, combinant d’une part les sites faisant l’objet d’une collecte large une fois par an (environ 2 millions de sites, principalement en « .fr » et « .re ») et ceux faisant l’objet d’une collecte ciblée plus fréquente (environ 20 000 sites choisis en fonction de leur thème ou de leur rapport à un événement : littérature, élections, Jeux olympiques…).

En tout état de cause, le décret apparaît comme une première étape importante vers une amélioration de l’archivage numérique.

[1Voir par exemple, TGI Paris, 3ème ch., 27 mai 2011, legalis.net

deconnecte