L’arrivée du Big Data n’a simplifié en rien le travail effectué sur les données par les entreprises. Le volume, la variété ou encore les différents systèmes de stockage de la donnée explosent. Pour preuve, Matt Turck publie ce qu’on appelle le Big Data Landscape. Mise à jour chaque année, cette infographie montre les différents acteurs clés dans divers sous-domaines du paysage Big Data.

Big Data Landscape

Ainsi, avec la révolution du Big Data, il est encore plus difficile de répondre à des questions “primaires” liées à la cartographie des données :

  • Quelles sont les jeux de données et les tables les plus pertinent.e.s pour mes use cases et mon entreprise ?
  • Est-ce que j’ai des données sensibles ? Comment sont-elles utilisées ?
  • D’où vient la donnée ? Quelles ont été ses transformations ?
  • Quelles vont être les impacts sur les jeux de données en cas de transformations ?

Tant de questions qu’un Responsable SI, Responsable Data Lab, Business Analyst ou encore Data Scientist se posent pour rendre un travail sur la donnée pertinent et efficace.

Ces questions mises en exergue permettent, entre autres, de :

  • Améliorer la data quality : renseigner un maximum d’informations permet aux utilisateurs de savoir si les données sont aptes à être utilisées.
  • Être conforme à la réglementation européenne (GDPR) : marquer les données personnelles et les traitements effectués dessus.
  • Rendre les collaborateurs plus efficaces et autonomes dans la compréhension des données grâce à une cartographie des données graphique et ergonomique.

Pour formaliser ces réponses, les entreprises doivent construire ce qu’on appelle un data lineage.

 

Continuez en vidéo 

Voir la vidéo de la conférence Data Lineage – cartographier les données de son SI

Ce talk présenté par Matthieu Blanc – VP Product de Zeenea – lors de la conférence DataXDay offre un aperçu et des pistes de reflexion. Pour voir sa conférence et télécharger les slides, merci de compléter ce formulaire. Vous serez redirigé.e vers la vidéo (20 minutes).

video data linea - cartographie des données SI