Les données publiques, un

Les données publiques, un trésor encore mal exploité

Les traces numériques que nous laissons partout intéressent les opérateurs. Mais leur traitement nécessite du temps et un savoir-faire. L’Open data sert pour le moment surtout à créer des applications plus ou moins utiles pour smartphone.

Quelques minutes avant le quart de finale de la Coupe du monde de football entre la France et l’Allemagne, le 4 juillet dernier, la courbe du trafic automobile en Ile-de-France, calculée à partir de boucles disposées sur les principaux axes routiers et diffusée par le service Sytadin, s’est effondrée.
Sur la carte de la région, tous les indicateurs sont passés au vert. La circulation n’a repris que dans les minutes qui ont suivi le coup de sifflet final. Le résultat du match était décelable sur les statistiques et les cartes : la France ayant perdu, la circulation est restée dégagée sur l’avenue des Champs-Elysées, à l’inverse de la soirée qui avait suivi le match France-Nigeria, quelques jours auparavant. La plupart de nos actes collectifs, désormais, sont lisibles à travers les données. Et pour cause. Les gestes de tous les jours, que l’on effectue sans y penser, laissent des traces numériques : saisir une requête sur le GPS, payer l’autoroute avec la carte bancaire, valider un titre de transport dans le bus ou dans le métro, acheter un billet de train, emprunter un vélo en libre-service. Ces données constituent de précieuses informations. Si l’itinéraire de chacun d’entre nous n’intéresse pas grand monde, l’addition de tous les déplacements fournit un aperçu complet des habitudes, un outil sociologique inédit. C’est cette masse que l’on appelle, un peu rapidement, le « Big data ». La publication d’une partie ou de la totalité des données, l’« Open data », est réclamée par des mouvements de consommateurs et de citoyens aux Etats-Unis et au Royaume-Uni.

Ce magma de renseignements, qui portent sur les transports, mais aussi sur l’habitat, l’économie, la culture et, bien entendu, sur la manière dont nous utilisons Internet, est souvent décrit comme un trésor inexploité. « C’est une mine d’or », assurent certains consultants, enthousiastes. « On n’a pas de pétrole mais on a des données », renchérit Simon Chignard, auteur de l’ouvrage « L’Open data : comprendre l’ouverture des données publiques » (FYP Editions, 2012).

Mauvaise qualité des données brutes

Cet engouement doit toutefois être relativisé. D’abord parce que l’essentiel de ce matériau n’est pas ouvert au public. Quelle entreprise voudrait dévoiler le montant de ses ventes, région par région, magasin par magasin ? Quel artisan accepterait de publier la liste et la localisation géographique de ses clients ? Ces acteurs, logiquement, espèrent valoriser eux-mêmes leurs précieuses bases, voire les vendre au plus offrant.

Par ailleurs, toutes les données brutes ne sont pas directement exploitables. Elles se présentent sous la forme de liste de chiffres, dates, coordonnées géographiques ou faits, figurant sur des tableurs Excel, des documents disparates, des logiciels complexes voire, pour les plus anciennes, inscrites à la main sur de simples feuilles volantes. « Les utilisations sont multiples, mais ce n’est pas magique. La plupart des données brutes sont de mauvaise qualité », constate le blogueur Yann Le Tilly, ingénieur à la SNCF.

Une fois recensées, anonymisées, nettoyées, harmonisées, recoupées, les données peuvent être analysées. Mais là encore, ce n’est pas toujours aisé. Deux séries de chiffres ne sont pas forcément comparables. L’être humain qui est chargé de l’analyse ne peut pas se dispenser de connaître la matière. Quelque 13 760 accidents de circulation impliquant les bus parisiens chaque année, est-ce beaucoup ou peu ? 90% de trains à l’heure en moyenne, est-ce acceptable ? Cela dépend, notamment, de la définition du retard : en France, la SNCF admet la défaillance lorsque le convoi arrive à destination plus de 5 minutes après l’heure prévue. Mais en Suisse, les Chemins de fer fédéraux ont fixé ce délai à 3 minutes… Si la personne qui analyse les données ignore ce décalage, la comparaison entre les deux pays n’a pas de sens.

Les transports sont souvent cités en exemple lorsqu’on évoque l’Open data. Dans ce secteur, les opérateurs sont soit des entreprises publiques, telles la SNCF ou la RATP, soit des concessionnaires, comme les gestionnaires d’autoroutes, les opérateurs des réseaux urbains ou de vélos en libre-service. Le financement des infrastructures est public, et les clients, même si on les réduit au statut d’« usagers », estiment que le prix du ticket donne aussi droit à une information régulière et fiable. Cela n’a pas toujours été facile. La RATP a longtemps refusé toute reproduction du plan du métro parisien. Rares sont les villes qui, comme Rennes, accepte de diffuser librement les horaires des bus, métros et tramways, en temps réel. Interrogé sur la publication des données de Sytadin, Eric Tanays, directeur des routes pour l’Ile-de-France, se montre sceptique : « l’Open data ? Je ne vois pas à quoi cela pourrait servir ». Ce genre d’affirmation fait éclater de rire les jeunes développeurs. « Évidemment, il ne voit pas. Mais c’est précisément pour cette raison que c’est nécessaire ; pour que d’autres puissent trouver une nouvelle vie à ces données ! », s’exclame l’un d’eux.

Les usagers mis à contribution

Pour le moment, l’usage du fameux « trésor » demeure embryonnaire au regard des multiples possibilités. On se contente surtout de créer des applications pour smartphones plus ou moins utiles. Combien de pas effectue-t-on tous les matins en allant au travail ? A quel endroit de la rame faut-il se placer pour être en face de la sortie ? Vers quel aéroport se dirige l’avion qui passe au-dessus de nos têtes ? Quelle est l’empreinte en CO2 du transport quotidien ?

De plus en plus, les opérateurs créent leurs propres applications, ou organisent des concours pour récompenser les meilleures idées. Les voyageurs, dont l’équipement en smartphones va croissant, sont mis à contribution. Waze demande à ses abonnés d’informer les autres automobilistes de la présence d’éventuels bouchons… ou de radars. Tranquilien, inventé par une équipe de développeurs de données pour le compte de la SNCF, propose aux voyageurs franciliens d’indiquer si leur rame est bondée ou non, afin que chacun puisse trouver une place assise. La société israélienne Moovit, qui recense les transports publics de nombreuses villes occidentales, accepte les corrections émanant des passagers. Ces usages semblent séduisants, mais demeurent marginaux. « L’application du téléphone que l’on utilise le plus pour se déplacer, jusqu’à présent, c’est le plan ! », s’exclame Yann Le Tilly.

deconnecte