L’Insee enrichit en continu son offre open data et open source. Il facilite également la recherche de ses jeux de données et leur exploitation.
L’Insee poursuit ses initiatives pour faciliter l’exploitation de ses données. En 2023, il a travaillé sur la nouvelle application Melodi (Mon Espace de Livraison en Open Data de l’Insee) qui a vu le jour dans sa version bêta en février 2024. Porte d’entrée de l’offre de données de l’institut, ce catalogue permet aux utilisateurs de rechercher le jeu de données répondant à leur besoin grâce à de nombreux filtres : l’indicateur (par exemple le produit intérieur brut ou la population), le niveau géographique, l’axe d’analyse (par exemple l’âge ou le secteur d’activité) et la source. Le catalogue est complètement bilingue, français et anglais, et il offre différents modes d’accès à la donnée selon les usages et l’expertise de chacun. Un travail important de description des métadonnées dans des standards internationaux et d’harmonisation de leur nommage entre sources (variables et modalités) a été réalisé. La version bêta devrait être enrichie régulièrement de nouveaux jeux de données et de nouvelles fonctionnalités avant l’ouverture du catalogue stabilisé durant l’été 2024.
L’Insee a mis à disposition des données permettant de tracer des contours géographiques pour chaque bureau de vote. Couplées aux résultats électoraux fournis par le ministère de l’Intérieur et des Outre-mer pour chaque bureau de vote, ces données permettent d’analyser de façon précise les différences de comportement électoral d’un quartier à l’autre au sein d’une même commune. Un fichier relie ainsi les adresses anonymisées des électeurs, issues du Répertoire électoral unique, et leur bureau de vote de rattachement. Les programmes informatiques également proposés pour utiliser ces données permettent d’approximer des « aires » ou « contours » de bureaux de vote et de les croiser avec d’autres informations (niveau de vie, âge de la population, etc.).
CHRISTOPHE BLEFARI FREELANCE, INGÉNIEUR DATA
J’utilise les données du recensement de l’Insee via data.gouv.fr à des fins éducatives et de vulgarisation autour de DuckDB ou de technologies similaires.
Il y a plein d’avantages au format parquet. C’est un format orienté colonnes, ce qui le rend plus optimisé lorsque l’on fait de l’analyse de données. En effet, le plus souvent en analytique on souhaite grouper la donnée et faire des calculs sur des colonnes entières. De plus, puisque la donnée est organisée par colonne, elle est plus facilement compressée. Cela réduit sa taille sur le disque, en bande passante et optimise la lecture en mémoire, ce qui évidemment peut permettre d’économiser de l’argent. Un fichier parquet embarque aussi le schéma (les types des colonnes) de la donnée, ce qui est un avantage certain par rapport à d’autres formats (comme le CSV) puisque la donnée que l’on lit est déjà typée, par les producteurs. On peut aussi faire ce que l’on appelle du « predicate pushdown » qui permet de lire des colonnes ou des partitions en omettant les autres et donc en économisant énormément de temps de lecture. Tout cela mène à une performance accrue en lecture et en calcul.
Le parquet est un format binaire, il n’est donc pas possible de l’ouvrir dans un éditeur de texte ou dans Excel. Mais cela reste un format de fichier que l’Insee doit davantage mettre à disposition car c’est un standard utilisable dans tous les langages de programmation.