All Projects → ColinMaudry → sirene-ld

ColinMaudry / sirene-ld

Licence: Unlicense License
Transformation du répertoire SIRENE (CSV) au format RDF pour publication en Linked Data

Programming Languages

shell
77523 projects
Makefile
30231 projects

Projects that are alternatives of or similar to sirene-ld

rdf2x
RDF2X converts big RDF datasets to the relational database model, CSV, JSON and ElasticSearch.
Stars: ✭ 43 (+38.71%)
Mutual labels:  linked-data, rdf
semagrow
A SPARQL query federator of heterogeneous data sources
Stars: ✭ 27 (-12.9%)
Mutual labels:  linked-data, rdf
matcha
🍵 SPARQL-like DSL for querying in memory Linked Data Models
Stars: ✭ 18 (-41.94%)
Mutual labels:  linked-data, rdf
Processor
Ontology-driven Linked Data processor and server for SPARQL backends. Apache License.
Stars: ✭ 54 (+74.19%)
Mutual labels:  linked-data, rdf
jsonld-streaming-serializer.js
A fast and lightweight streaming JSON-LD serializer for JavaScript
Stars: ✭ 20 (-35.48%)
Mutual labels:  linked-data, rdf
CSV2RDF
Streaming, transforming, SPARQL-based CSV to RDF converter. Apache license.
Stars: ✭ 48 (+54.84%)
Mutual labels:  linked-data, rdf
carml
A pretty sweet RML engine, for RDF.
Stars: ✭ 74 (+138.71%)
Mutual labels:  linked-data, rdf
ControlledVocabularyManager
Rails application with Blazegraph for managing controlled vocabularies in RDF.
Stars: ✭ 20 (-35.48%)
Mutual labels:  linked-data, rdf
YALC
🕸 YALC: Yet Another LOD Cloud (registry of Linked Open Datasets).
Stars: ✭ 14 (-54.84%)
Mutual labels:  linked-data, rdf
twinql
A graph query language for the semantic web
Stars: ✭ 17 (-45.16%)
Mutual labels:  linked-data, rdf
mayktso
🌌 mayktso: encounters at an endpoint
Stars: ✭ 19 (-38.71%)
Mutual labels:  linked-data, rdf
titanium-json-ld
A JSON-LD 1.1 Processor & API
Stars: ✭ 79 (+154.84%)
Mutual labels:  linked-data, rdf
LD-Connect
LD Connect is a Linked Data portal for IOS Press in collaboration with the STKO Lab at UC Santa Barbara.
Stars: ✭ 0 (-100%)
Mutual labels:  linked-data, rdf
rdfa-streaming-parser.js
A fast and lightweight streaming RDFa parser for JavaScript
Stars: ✭ 15 (-51.61%)
Mutual labels:  linked-data, rdf
jsonld-context-parser.js
Parses JSON-LD contexts
Stars: ✭ 20 (-35.48%)
Mutual labels:  linked-data, rdf
viziquer
Tool for Search in Structured Semantic Data
Stars: ✭ 12 (-61.29%)
Mutual labels:  linked-data, rdf
Php Json Ld
PHP implementation of a JSON-LD Processor and API
Stars: ✭ 246 (+693.55%)
Mutual labels:  linked-data, rdf
basex-rdf
RDF parsing for BaseX
Stars: ✭ 16 (-48.39%)
Mutual labels:  linked-data, rdf
Islandora-Metadata-Interest-Group
The purpose of the Islandora Metadata Interest Group (IMIG) is to investigate and provide metadata solutions that help improve metadata creation, maintenance and enhancement in Islandora.
Stars: ✭ 29 (-6.45%)
Mutual labels:  linked-data, rdf
pyLDAPI
A very small module to add Linked Data API functionality to a Python Flask installation
Stars: ✭ 28 (-9.68%)
Mutual labels:  linked-data, rdf

SIRENE LD 1.2.0

Transformation du répertoire SIRENE (CSV) et données connexes au format RDF pour publication en Linked Data.

Le projet est en chantier total, mais quand il y a du nouveau, c'est sur sireneld.io et sur Twitter via le hashtag #sireneLD.

Données sources

SIRENE

Le répertoire SIRENE est administré et publié par l'INSEE et rassemble de nombreuses informations sur les organisations publiques (collectivités, administrations centrales) et privées (à but lucratif ou non-lucratif).

Chaque organisation est composée :

  • d'une unité légale : l'unité légale rassemble toutes les informations centrales sur l'entreprise, indistinctement de son emplacement géographique.
  • d'un ou plusieurs établissements : chaque établissement correspond à un lieu rattaché à l'entreprise, avec une adresse, une enseigne, un type d'activité, un nombre d'employés (par tranches), etc.

Le CSV source des établissements provient du fichier SIRENE géo-taggé et publié par @cquest et disponible ici : http://data.cquest.org/geo_sirene/v2019/last/.

La source ouverte officielle est le jeu de données publié sur data.gouv.fr. C'est également depuis ce jeu de données que sireneLD récupère les données des unité légales.

Données connexes

Les identifiants SIREN et SIRET sont les identifiants les plus courants pour identifier une organisation française. Ils sont donc logiquement présents dans des données qui décrivent leur activité. L'un des objectif de ce projet est de publier également ces données connexes, pour qu'elles ne forme un ensemble lié et requêtable.

La liste complète et à jour est .

Quelques exemples, par ordre d'intégration :

  • attributions de marchés publics (DECP)
  • données des greffes (RNCS)
  • données spécifiques aux associations (RNA)

Pourquoi tu fais ça ?

Je pense que des entités aussi cruciales que les entreprises et les organismes publics doivent avoir des identifiants ancrés dans le Web, des URI. Cela vaut aussi pour les données périphériques, tels que les marchés publics. Je pense aussi que l'accessibilité de ces données est insuffisant compte tenu de leur importance.

Ainsi, en suivant les principes du Linked Data, ces URI

  • servent d'identifiants universels (81223113200034 est ambigu sans contexte, https://sireneld.io/siret/81223113200034 est univoque)
  • l'ancrage dans le Web permet une clarification de la responsabilité (il suffit d'ouvrir sireneld.io pour savoir qui contrôle les URI basées sur ce domaine)
  • ces identifiants retournent une description de l'entité, sous forme de données (JSON, XML, ...) ou de HTML (pour les humains) en fonction de l'en-tête Accept-Type envoyé dans le requête HTTP GET
  • bonus : les données de cette entité contiennent des paramètres sous forme d'URI, et des références d'autres entités identifiées par des URI, que vous pouvez également interroger, qui elles mêmes retournent des URI, etc.

Si vous souhaitez en savoir plus sur le Linked Data, j'ai créé une liste de recommandations de lecture en bas de la page d'accueil de mon site Web.

Le second objectif est de proposer une interface graphique et une API permettant le requêtage des données.

Objectifs et étapes de transformation

Fait Description Progression
Transformer les données CSV au format RDF, en utilisant Tarql et une requête SPARQL de type CONSTRUCT (Etablissement2rdf.rq et [UniteLegale2rdf.rq](https://github.com/ ColinMaudry/sirene-ld/blob/master/sparql/UniteLegale2rdf.rq)).
Résultat.
Pour un requêtage efficace et pour remplacer le triple store, la production d'une archive HDT est également nécessaire.
transform
Abandonné Charger les données dans un triple store, une base données dédiée au stockage et au requêtages de triplets RDF (GraphDB Free ou Apache Fuseki)
Résultat.
triplestore
Exposer l'archive HDT à traver un point de requête SPARQL via le Comunica HDT SPARQL actor pour des requêtes SPARQL résilientes. ldf
Créer et publier une ou plusieurs ontologies pour définir les classes et propriétés des entreprises et établissements décrits dans les données du SIRENE.
Résultat
ontology
Développer une application Web où les données seront visibles et mises en valeur (en cours : sireneld.io (source) api | frontend
Intégrer automatiquement les mises à jour quotidiennes publiées par l'INSEE et géocodées par @cquest. data-update
Enrichir les données à partir d'autres sources de données ouvertes (marchés publics, RNA, RNCS, etc.) externes. enrich
Intégrer le tout au Service public de la donnée (chiche !?)

Notes de version

1.2.0 (23 avril 2020)

  • adoption du format binaire HDT (Header, Dictionary, Triples) pour la publication des données
  • adoption des requêtes SPARQL à la structure 2019 du SIRENE
  • utilisation d'un serveur temporaire pour la création du fichier HDT

1.1.0 (15 janvier 2019)

  • suppression des .nt téléversés pour économiser de l'espace disque

1.0.0 (15 janvier 2019)

  • conversion du SIRENE vers RDF
  • ontologies
  • chargement dans le triple store par fragments

Soutien

Je compte consacrer pas mal de temps à ce projet et je devrai louer un serveur dédié afin de traiter, héberger et publier la masse de données que représente le SIRENE une fois transformé en graphe (en moyenne 500 Mo par département), sans compter les données périphériques (codes officiels géographiques, nomenclature NAF, etc.).

Ainsi, pour soutenir ce projet vous pouvez :

  • ajouter une étoile dans Github (en haut à droite de l'écran)
  • retweeter les tweets qui ont le hashtag #sireneLD
  • m'envoyer vos commentaires et encouragements par email ([email protected])
Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].