All Projects → InseeFrLab → DoReMIFaSol

InseeFrLab / DoReMIFaSol

Licence: MIT license
Téléchargement des données sur le site de l'Insee

Programming Languages

r
7636 projects

Projects that are alternatives of or similar to DoReMIFaSol

eia
An R package wrapping the US Energy Information Administration open data API.
Stars: ✭ 38 (+52%)
Mutual labels:  open-data, r-package
siren
Siren API to serve INSEE v3 data
Stars: ✭ 13 (-48%)
Mutual labels:  insee, sirene
rfisheries
package for interacting with fisheries databases at openfisheries.org
Stars: ✭ 24 (-4%)
Mutual labels:  open-data, r-package
pbapply
Adding progress bar to '*apply' functions in R
Stars: ✭ 115 (+360%)
Mutual labels:  r-package, rstats-package
Ckanr
R client for the CKAN API
Stars: ✭ 91 (+264%)
Mutual labels:  open-data, r-package
digipathos
Brazilian Agricultural Research Corporation (EMBRAPA) fully annotated dataset for plant diseases. Plug and play installation over PiP.
Stars: ✭ 38 (+52%)
Mutual labels:  open-data
osm-extracts
Each day, OSM Extracts by Interline mirrors the entire OpenStreetMap planet and creates city and region sized extracts
Stars: ✭ 34 (+36%)
Mutual labels:  open-data
LDWizard
A generic framework for simplifying the creation of linked data.
Stars: ✭ 17 (-32%)
Mutual labels:  open-data
open-data-covid-19
Open Data Repository for the Covid-19 dataset.
Stars: ✭ 19 (-24%)
Mutual labels:  open-data
statistics-coded
Catalogue of resources (R/Python/SQL/SAS/Stata/...) to reproduce the results of Eurostat Statistics Explained articles
Stars: ✭ 31 (+24%)
Mutual labels:  open-data
company-introduction-jp
日本の会社紹介スライドのまとめです。
Stars: ✭ 49 (+96%)
Mutual labels:  open-data
wbstats
wbstats: An R package for searching and downloading data from the World Bank API
Stars: ✭ 106 (+324%)
Mutual labels:  open-data
MADBike
This is the public repository of the MADBike app for iOS. Public bike rental service for BiciMAD.
Stars: ✭ 23 (-8%)
Mutual labels:  open-data
git-rdm
A research data management plugin for the Git version control system.
Stars: ✭ 34 (+36%)
Mutual labels:  open-data
api sof
Tutorial para acessar a API do Sistema de Orçamento e Finanças _SOF da cidade de São Paulo, utilizando Python e a biblioteca Pandas, realizar análises e salvar arquivo CSV/Excel
Stars: ✭ 31 (+24%)
Mutual labels:  open-data
egov
eGov España - API abierto de acceso a datos púbicos
Stars: ✭ 21 (-16%)
Mutual labels:  open-data
data.world-r
R library for data.world
Stars: ✭ 59 (+136%)
Mutual labels:  open-data
CityScoreToolkit
Open-source version of Boston's CityScore performance dashboard
Stars: ✭ 42 (+68%)
Mutual labels:  open-data
datapackage-m
Power Query M functions for working with Tabular Data Packages (Frictionless Data) in Power BI and Excel
Stars: ✭ 26 (+4%)
Mutual labels:  open-data
berlin-open-source-portal
Showcase of Open Source Software that is built, maintained and/or funded by Berlin state governmental agencies
Stars: ✭ 21 (-16%)
Mutual labels:  open-data

Récupérer et utiliser les données de l'Insee avec R/ Get and use Insee's data with R

Project Status: WIP – Initial development is in progress, but there has not yet been a stable, usable release suitable for the public. build-artifacts R-CMD-check License:MIT Coverage status CRAN status

Français

De quoi s'agit-il ?

Le package doremifasol (Données en R Mises à disposition par l’Insee et Facilement Sollicitables) permet d'importer facilement dans R des données mises à disposition sur le site de l'Insee.

Il offre deux fonctionnalités principales :

  • télécharger et importer dans R des fichiers disponibles sur insee.fr (Base Permanente des Équipements, Recensement de Population, Filosofi...) ;
  • requêter l'API Sirene et recupérer les résultats dans R.

L'objectif du package est de rendre transparentes les différentes tâches à réaliser avant de pouvoir traiter les données : recherche sur le site, téléchargement, décompression, import dans R...

Idéal pour pratiquer son solfège en R sur des données françaises !

Pour installer le package :

# install.packages("remotes")
remotes::install_github("InseeFrLab/doremifasol", build_vignettes = TRUE)

Quelles données sont disponibles ?

Pour trouver quelles données le package peut aller récupérer sur le site de l'Insee, on peut commencer par explorer interactivement les données disponibles.

Cela permet notamment de connaître les identifiants (noms courts) et millésimes qui seront à spécifier aux fonctions de téléchargement.

Le package a vocation à intégrer de nouveaux jeux de données dès qu'ils sont mis en ligne. Ce processus n'est toutefois pas automatisé. Voir la section Contribuer pour suggérer l'ajout de nouvelles données.

Exemples d'usages

Les données du recensement de population

Le premier exemple concerne les données du recensement librement accessibles sur le site de l'Insee. Ce sont des données très volumineuses, et sauf à disposer de capacités de calcul conséquentes, il n'est en général pas possible de charger l'ensemble des données en mémoire. Pour cela, le package doremifasol permet de sélectionner les colonnes que l'on souhaite charger en mémoire, une fois le fichier téléchargé. Ainsi, un utilisateur qui voudrait connaître par commune le nombre de résidences principales en 2016 aura besoin des variables COMMUNE - le code commune - et CATL - la catégorie d'occupation du logement - de la table logement :

donnees_rp <- telechargerDonnees("RP_LOGEMENT", date = 2016, vars = c("COMMUNE", "IPONDL", "CATL"))

Filosofi

L'Insee met également à disposition un certain nombre d'indicateurs relatifs à la distribution des revenus et à la pauvreté au niveau communal, voire infra-communal. Ces données sont mises à jour chaque année à partir des sources fiscales ; il s'agit de la source "Filosofi". Ainsi, il est possible de télécharger ces indicateurs au niveau de la commune, pour l'ensemble des ménages par exemple, grâce à la syntaxe suivante :

donnees_filosofi <- telechargerDonnees("FILOSOFI_DISP_COM_ENS", date = 2017)

Ces données sont déclinées pour différentes catégories de ménages, et de la même manière peuvent être téléchargées grâce au package doremifasol.

Estimations localisées d'emploi en France

De la même manière que les données fiscales permettent de fournir des statistiques à un niveau géographique fin, d'autres sources administratives permettent de construire des estimations du nombre d'emplois présents dans les différentes communes du territoire français. Il s'agit des Estimations d'Emploi Localisées, qu'il est possible de récupérer en R grâce à la syntaxe suivante :

donnees_estel <- telechargerDonnees("ESTEL_T201", date = 2018)

Requêter une API REST : le répertoire d'entreprises Sirene

Supposons que l'on cherche maintenant à récupérer l'ensemble des établissements rattachés à une unité légale créée le 1er janvier 2020 ; pour cela, on peut par exemple envoyer une requête sur l'API REST Sirene de l'Insee. Pour cela, il faut au préalable avoir configuré un accès à l'API REST de l'Insee et passer en variables d'environnement les données d'identification. La procédure est expliquée par exemple ici. Une fois cela réalisé, la requête peut se faire facilement au travers de doremifasol de la manière suivante :

etablissements <- telechargerDonnees("SIRENE_SIRET", 
                                     argsApi = list(q = "dateCreationUniteLegale:2020-01-01"))

On fait alors face à une liste contenant plusieurs data.frame (6 au total) :

  • une table contenant l'ensemble des informations sur les établissements en question ;
  • deux tables contenant l'ensemble des informations sur les unités légales de ces établissements, en distinguant les unités dites purgées des autres ;
  • deux tables contenant les informations sur l'adresse de ces établissements ;
  • une table détaillant les informations historisées de ces établissements - c'est-à-dire les différentes modifications qu'ont connues les établissements entre leur création et la date de référence - ici par défaut la date de téléchargement.

Contribuer

Agent du Service Statistique Public, ou utilisateur des données mises à disposition sur le site de l'Insee, vous constatez qu'il manque dans la liste des données référencées dans doremifasol une source de données que vous utilisez ? Vous pouvez contribuer à doremifasol, sans nécessairement coder en R. Pour plus de détais, vous pouvez consulter la documentation à ce sujet.

English

What is it about?

doremifasol (data with R made available by Insee and easily retrievable in French) is a R package mainly aiming at showing off data available on Insee's website (Insee, for the French Institute for Statistics and Economic Studies), helping the user to put them on stage and extract the information they carry. So it is about analysing data, creating maps, quantifying phenomenons and in general using the data without the painful effort to retrieve them on the website, as well as import them into R's memory. The name of the package stands for the five first notes of music, and pushing the metaphore, underlines its aim at helping the users to easily pratice their solfège in R.

To install the package:

# install.packages("remotes")
remotes::install_github("InseeFrLab/doremifasol", build_vignettes = TRUE)

Which data is available?

You may begin by exploring interactively which data the package can fetch on Insee website with.

This is also a way to find out the identifiers (short names) and years to be passed as parameters to the downloading functions.

New data sources can be added to the package as soon as they are available online. However, this process is not automated. See the Contributing section for suggesting package administrators to add new sources.

A few examples

Census data

A first example of use of the package is related to the rolling Census implemented in France on a yearly basis. It concerns voluminous data that prove to be hard to load into R's memory on most of the machines. To adress the data size issue, the package doremifasol makes it possible to resize the data and only imports columns that are of interest for the user. Assume that one is interested in knowing the number of main residences for each municipality on the French territory in 2016, that one will only need three variables from the table logement (dwelling in French), COMMUNE the zip code, IPONDL the weight of the dwelling and CATL indicating the status of occupation:

donnees_rp <- telechargerDonnees("RP_LOGEMENT", date = 2016, vars = c("COMMUNE", "IPONDL", "CATL"))

Data on income distribution and poverty

Should you now be interested in data on income distribution, you may download information on income percentiles and poverty rate at the municipality level based on tax data, also knwow as 'Filosofi'. Those data are update every year. You may fetch these data for year 2017 for instance thanks to the following command:

donnees_filosofi <- telechargerDonnees("FILOSOFI_DISP_COM_ENS", date = 2017)

Data on employment

Tax data are very convenient to carry out information on income distribution at municipality level, so are data coming from registers on employment.

Requesting an API REST on the firms' register Sirene

Contributing

As non French-speaking user of Insee's website, you are using data that turn out not to be listed there in the package doremifasol. You may notify the maintainer of this project and even more, could you code in R or not. Please report to the dedicated documentation.

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].