Big data, open data...

Quand je suivais les cours de statistique, il y a bien longtemps, un de mes professeurs avait coutume de dire que le terme “donnée” était un mauvais terme car les “données” n’étaient pas données. A l’époque, obtenir des données était coûteux et la collecte, la conception d’enquêtes par sondage, l’utilisation d’échantillons étaient le quotidien du statisticien.

Aujourd’hui, on ne dit plus données mais son équivalent anglais : data. Avec son corollaire, le très médiatique big data. Pas toujours facile à définir, l’apparition de ce terme semble découler d’une évolution finalement assez récente : des données toujours plus nombreuses, d’où des problématiques de volumétrie, mais aussi une quasi-disparation des coûts de collecte. La donnée est ainsi devenue un produit fatal de l’existence des systèmes d’information (SI) de gestion avec un coût d’acquisition et de fabrication quasiment nul. En tous cas certaines données : celles issues des logs des serveurs, celles que les internautes laissent volontairement ou non sur les sites, celles herbergées dans les bases de données des applicatifs publics ou privés.

Conséquence de cette évolution : ce n’est plus la création de la donnée qui génère de la valeur ajoutée mais son exploitation, par visualisation, par croisement avec d’autres données, par mise en œuvre de nouvelles techniques essentiellement descriptives (analyse de graphes, recherche de corrélation, visualisation...), par traitement finalement assez simple de données non structurées autour de Hadoop/Mapreduce.

Si l’on comprend aisément que le big data est une vraie problématique pour des acteurs comme Google, Facebook, Twitter, Amazon... qui sont typiquement dans la situation de volumétries rendant inopérantes les techniques statistiques habituelles et une information peu structurée où la richesse est dans la masse et dans les signaux faibles, doit-on tout mettre dans le même sac du big data ?

Un des effets pervers de la notion de big data est de donner l’impression que seul compte le volume. Et que donc un gros volume de données est plus “intéressant” qu’un plus petit volume. Un autre écueil est de penser que toutes les données se valent. Or c’est la donnée produit fatal des systèmes d’informations qui est volumineuse et gratuite. Mais certaines données restent coûteuses à produire ou ont une valeur qui repose sur leur caractère secret ou stratégique. Et dans tous les cas, la question de leur accessibilité, de leur structuration et de leur utilisabilité reste primordiale.

S’il convient d’étudier comment les big data peuvent remplacer les expensive data, il faut aussi savoir ne pas céder aux effets de mode. Par exemple, l’exemple classique de définition des épisodes grippaux à partir des recherches Google [1] a peut-être trouvé ses limites avec une surestimation de 100% pour les États-Unis en 2013 [2]. Peut-être un réseau sentinelles [3] est-il moins moderne mais plus efficace pour mesurer l’évolution spatiale et temporelle de la maladie ?

Et l’open data ? La confusion règne parfois entre tous les nouveaux termes en data. Pour l’instant, l’open data n’a rien à voir avec le big data. Les jeux de données présents sur data.gouv.fr sont en général de taille relativement modeste et de formats très variés, là où le big data s’est plutôt spécialisé dans le traitement des informations textuelles.

Plusieurs tendances cohabitent dans l’open data :

  • l’aspect transparence démocratique : il trouve son fondement dans la loi CADA de 1978 et la nécessité de transparence de l’action publique, indispensable pour l’exercice de la démocratie et de la citoyenneté.
  • l’aspect “données publiques” : certains opérateurs (IGN, INSEE, météo-france...) sont des opérateurs publiques dont la finalité est la production de données. Dans ce cas, l’open data se traduit plutôt par des enjeux de tarification et de financement vis-à-vis de ces opérateurs habitués à récupérer une partie des coûts (en général réels) de fabrication de la donnée.
  • l’aspect “produit fatal du SI Etat”.

Explicitons ce dernier point : les administrations, certes avec retard, ont fini par développer de plus en plus d’applications informatiques pour outiller leurs processus métier. Avec les architectures centralisées, ces données sont maintenant regroupées dans les centres de données de l’Etat et posent de nombreuses questions : que faire de cette masse de données souvent nominatives, organisées pour la gestion opérationnelle et non pas pour être publiées ni même utilisées ? L’enjeu véritable de l’open data, et le vrai levier pour changer de culture au sein de l’Etat, passe par la valorisation de ces données applicatives.

Mais les obstacles sont nombreux, qu’ils soient culturels, technico-fonctionnels ou légaux.

Culturellement, les administrations ont une vision patrimoniale de leurs données et considèrent qu’elles leur appartiennent. Quand on dit administration, il faut comprendre ministère quand on est un service interministériel, une direction quand on est dans un ministère, un département au sein d’une direction, etc... Les données sont un enjeu de pouvoir et le mouvement naturel consiste à les “protéger”, c’est-à-dire les garder pour soi.

D’un point de vue technico-fonctionnel, les obstacles existent également : c’est plus insidieux mais, suite au recours massif à l’externalisation, les administrations ont peu à peu perdu la connaissance de leurs données et de l’organisation globale de leur SI. Elles n’ont même parfois plus l’accès à leurs propres informations, certains infogérants exigeant l’absence d’accès à leur infrastructure pour garantir le service rendu. On peut également trouver dans ces systèmes applicatifs des fautes de conception rendant extrêmement compliquée, voir impossible, la reconstitution d’information pertinentes.

Enfin dernier point : la question des informations nominatives au regard de la loi de 1978 qui a amené la création de la CNIL. Le paysage informatique a considérablement changé depuis la mise en place de cette commission qui avait pour objectif pricipal d’empêcher l’interconnexion via un identifiant unique des différents fichiers administratifs. Il est difficile d’imaginer comment serait structuré le SI de l’Etat en l’absence de cette loi : il y a fort à parier qu’il serait beaucoup plus centré autour du client/usager/citoyen et qu’il aurait permis de mener des politiques bien plus efficaces mais en contrepartie de risques a priori plus importants pour les libertés individuelles.

Pourtant, depuis 1978, plusieurs services de l’Etat ont montré qu’ils savaient gérer des données sensibles sans faire peser de trop forts risques pour les individus : l’INSEE avec le répertoire national d’identification, le casier judiciaire, la sphère sociale avec l’assurance maladie ou les déclarations de salaire. Et l’existence de la CNIL n’a pas empêché les rapprochements de fichiers à des fins fiscales ou de simplification, ni la constitution de fichiers de police qui contournent les restrictions d’accès au casier judiciaire. Sans parler des opérateurs privés ont maintenant bien plus de données individuelles que l’Etat.

Aujourd’hui, la question du rapprochement des informations publiques concernant un même individu, non pas dans l’optique de s’intéresser à la personne en particulier mais pour mesurer les relations entre les différentes informations, va se poser à très court terme si l’on veut développer l’utilisation pour la prise de décision et l’évaluation des politiques publiques.

Le statu quo se traduira par un faible potentiel en terme d’action publique (data driven policy) des données collectées. Les techniques d’anonymisation par floutage ou agrégation (k-anonymity, l-diversity...) présentent l’inconvénient de fausser les résultats qu’on peut en tirer [4].

Reste une solution : faire évoluer la législation pour permettre de sortir de la notion floue de données personnelles ou identifiantes. Et a fortiori indirectement identifiantes : dans la pratique, il est quasiement impossible d’éviter de rendre non identifiant un croisement fin de données dès lors que l’on connaît déjà certaines informations rares ou très précises. Où positionner le curseur entre intérêt des données et risque de réidentification des individus ?

L’exemple de la mise en open-data des courses de taxis new-yorkais [5] illustre très bien la question. A priori, on pourrait penser que cette donnée est anonyme. Toutefois, par des renseignements extérieurs comme une photo d’une célébrité prenant un taxi à un moment et un endroit connu, on peut repérer que telle course concerne telle personne et donc connaître sa destination [6]. Puis, par exemple, repérer ensuite si cette course se reproduit et faire l’hypothèse qu’il s’agit à nouveau de la même personne.

Quelle réponse sociale veut-on donner à ce type de jeux de données ?

  1. interdire sa publication avec le risque de limiter l’open-data à des jeux de données agrégés à faible valeur ajoutée
  2. flouter ces données pour éviter ce type de traitement ? Jusqu’à quel degré de floutage ? Sur quelle variable ? Avec le risque de rendre fausses les analyses produites.
  3. réserver le traitement de ce type de données à un public limité : sur quelle base définir l’agrément ? avec quelles garanties ?
  4. ne rien faire : après tout la course de taxi est déjà connue des paparazzis qui suivent la célébrité (c’est ce qui a permis l’identification) et l’anonymat de milliers d’autres utilisateurs est respecté. Ce n’est donc pas un problème de données.

Jusqu’à maintenant ce type de données n’a jamais été publié en France. La mise en avant de la politique d’open-data et la récente mise en place d’un administrateur général des données vont obliger à se poser la question du statut de plusieurs jeux de données au contenu comparable à l’exemple des taxis new-yorkais : des données a priori non nominatives mais qui permettent, par différentes techniques et recoupements, de retrouver des informations individuelles si l’on poursuit réellement ce but. Et qui, si on veut l’empêcher, perdent une grande partie de leur intérêt.

Jusqu’où est-on prêt à partager un peu de sa vie privée pour permettre aux différents acteurs publics ou privés d’accéder à plus de données et pouvoir mieux prendre leurs décisions, cibler leurs politiques ou vendre leurs produits ? Dit sans fard, c’est cela le principal enjeu autour de l’ouverture des données.

[1]: http://www.google.org/flutrends/intl/fr/about/how.html
[2]: http://www.numerama.com/magazine/28841-le-suivi-de-la-grippe-par-google-est-largement-faux.html
[3]: https://websenti.u707.jussieu.fr/sentiweb/?page=maladies&mal=3
[4]: http://alireailleurs.tumblr.com/post/96612700635/lanonymisation-transforme-t-elle-les-resultats-de
[5]: http://chriswhong.com/open-data/foil_nyc_taxi/
[6]: http://research.neustar.biz/2014/09/15/riding-with-the-stars-passenger-privacy-in-the-nyc-taxicab-dataset/