
Open Data - pas toujours facile de trouver des données!
Cet article a été publié initialement sur mon ancien blog, qui était hébergé par blogspot.com.
Les 4 et 5 septembres 2015, j'ai participé aux "Election Hackdays". Cet événement a été organisé par l'association Opendata.ch, en collaboration avec les journaux Neue Zürcher Zeitung (NZZ) pour les suisses alémaniques et Le Temps pour les suisses romands. L'objectif de ce hackathon/workshop était de mettre en relation des designers, des développeurs, des journalistes, des spécialistes et des citoyens de tous bords, afin qu'ils développent, en lien avec les élections fédérales Suisse de 2015, de nouvelles applications ou sites web présentant des données disponibles librement.
Pour rappel, le concept d'open data ou de données ouvertes, consiste à diffuser des données structurées de façon à ce que tout un chacun puisse les utiliser librement. Il existe des jeux de données couvrant de multiples thématiques, comme : les activités économiques, la population ou les droits politiques, etc. Si nous nous plaçons du point de vue du consommateur de l'information, les jeux mis à disposition doivent être les plus riches possibles. Si nous nous plaçons du point de vue des fournisseurs de l'information, ils doivent pouvoir garantir que la corrélation des données ne va pas à l'encontre des règles relatives à la protection des données personnelles.
Dans le vaste domaine des droits politiques et des institutions politiques, nous pouvons facilement trouver des jeux de données liés aux résultats d'une opération électorale, une votation ou sur des débats parlementaires.
Le groupe (InterestFinder) avec lequel j'ai travaillé, durant ces deux jours, s'est focalisé sur la relation entre les liens d'intérêts déclarés et la participation au sein de conseils d'administration pour les candidats et/ou élus au Conseil national. Une seconde phase de ce projet consisterait à analyser l'influence de ces relations sur les motions déposées par ces élus.
En commençant la mise en pratique de notre réflexion, nous nous sommes rapidement heurtés à la difficulté de trouver des jeux de données. La première difficulté a été de trouver une liste de tous les candidats au Conseil national 2015, sans devoir parcourir les sites web des 26 cantons. Le deuxième problème a été de trouver les liens d'intérêts des candidats. A Genève, par exemple, cette information est disponible uniquement dans l'édition "tout ménage" spéciale élection, de la feuille d'avis officielle cantonale (FAO). Cette information n'étant pas structurée, un travail manuel conséquent aurait dû être mis en œuvre pour récupérer les liens d'intérêts de chaque candidat (178 pour Genève). Suite à ce premier échec, nous avons continué nos recherches, afin de savoir quel candidat fait partie de quel conseil d'administration. Pour cette recherche, nous nous sommes heurtés à la problématique des homonymes et nous ne pouvons pas garantir la qualité de nos données. A l'aide du numéro NOGA (Nomenclature Générale des Activités économiques) donné à chaque entreprise par l'office fédéral de la statistique (OFS), nous aurions pu enrichir la qualité de ces données et ainsi présenter les potentielles influences qu'un candidat peut subir. Toutefois, l'OFS ne fournit pas de jeux de données, permettant d'obtenir cette information. La raison invoquée par cette dernière est la protection des données. Après un peu de recherche, en utilisant des méthodes dites de scraping (technique pour extraire des données d'un site web) et un peu plus de temps, nous aurions pu récupérer cette information sur le site d'un fournisseur d'informations économiques.
En conclusion, trouver des jeux de données dans des domaines précis n'est pas toujours chose facile. Trouver des jeux de données exhaustifs est encore plus dur. Les administrations, ou toutes autres organisations souhaitant partager ses données, ont donc une marge de progression conséquente.
Merci Hicham, Martin, Nicolas, poog, Roland et Stefano pour ce moment.