L’usage des données massives fait par les Grands du Web dans les années 2000 a été une prise de conscience pour les entreprises : le Big Data est un levier de croissance et de compétitivité favorisant l’innovation. Aujourd’hui, les entreprises se réorganisent autour de leurs données afin d’adopter une démarche dite “data-driven”. Une histoire constituée de plusieurs péripéties, qui tend enfin à trouver un dénouement.

Cet article évoque les différentes révolutions data entreprises ces dernières années jusqu’à aujourd’hui, pour tenter de maximiser la valeur métier des données.

Des architectures en silos

Dans les années 80, les Systèmes d’Information évoluent fortement. Des applications métier sont créées, des langages de programmation avancés surviennent et les bases de données relationnelles apparaissent. Toutes ces applications reposent sur des plateformes propriétaires, isolées du reste de l’écosystème informatique.

Pour ces raisons historiques et technologiques, les données internes d’une entreprise sont réparties dans des technologies diverses et des formats hétérogènes. S’ajoutent des problématiques organisationnelles, on parle alors d’effet tribu. Chaque département IT possède ses propres outils et implicitement, gère ses propres données pour son propre usage. On assiste à une certaine thésaurisation de la donnée au sein des organisations. Pour appuyer ces propos, on évoque fréquemment la loi de Conway : “toute architecture reflète l’organisation qui l’a créée”. Ainsi, cette organisation, dite en silos, rend très complexe et onéreux de croiser des données provenant de deux systèmes différents.

La recherche d’une vision centralisée et complète des données de l’entreprise va mener les Systèmes d’Information vers une nouvelle révolution.

Le concept de data warehouse

À la fin des années 90, la Business Intelligence bat son plein. Pour des fins analytiques et dans le but de répondre à des questions stratégiques, le concept de data warehouse apparaît.

Pour ce faire, on va récupérer les données qui se trouvent dans des mainframes ou des bases de données relationnelles pour les faire transiter dans un ETL (Extract Transform Loader). Projetées dans un format dit pivot, les analystes et décideurs peuvent accéder aux données collectées et mises en forme pour répondre à des questions préétablies et des cas précis de réflexion. De la question, on tire un modèle de données !

Cette révolution s’accompagne toutefois de quelques problèmes… Utiliser les outils d’ETL a un certain coût et le hardware qui l’accompagne également. Le laps de temps écoulé entre la formalisation du besoin et le moment où se réceptionne le report est très chronophage. Une révolution qui vaut chère pour une efficacité perfectible.

La nouvelle révolution du data lake…

L’arrivée des data lakes renverse le précédent raisonnement. Le data lake permet de centraliser le stockage des données utiles à une organisation, indépendamment des sources, de leur format pour un coût de stockage très faible. On entrepose les données de l’entreprise sans présupposer de leur utilité dans le traitement d’un cas d’usage futur. Ce n’est qu’en fonction d’usage spécifique que l’on va sélectionner ces données brutes et les transformer en informations stratégiques.

Nous passons d’une logique “à priori” à une logique “à posteriori”. Cette révolution du data lake mise sur de nouvelles compétences et savoirs : des data scientists et data engineers capables de lancer des traitements sur les données et faire émerger des résultats beaucoup plus rapidement que dans le temps des data warehouses.

Nième avantage de cette terre promise, son coût. Souvent proposée de manière open-source, les data lakes sont peu chers ainsi que le hardware qui l’accompagne. On parle souvent de community hardware.

… ou plutôt, du data swamp

Des avantages certains sont présents avec la révolution du data lake mais ils s’accompagnent de nouveaux enjeux. L’expertise pour instancier et maintenir ces data lakes est rare et donc, coûteuse pour les entreprises. De plus, déverser jour après jour des données dans un data lake sans une gestion et une organisation efficace revêtent un risque fort de rendre l’infrastructure inutilisable. Les données seront alors perdus dans la masse.

Cette gestion des données s’accompagne de nouvelles questions liées à la réglementation des données (GDPR, Cnil, etc.) et la sécurité de celles-ci : des sujets déjà existants dans le monde du data warehouse. Trouver la bonne donnée pour le bon usage n’est pas encore chose aisée.

Le dénouement : construire une gouvernance data

Les Grands du Web l’ont compris, centraliser ses données est une première étape mais n’est pas suffisante. Une dernière brique est nécessaire pour aller vers une démarche dite “data-driven” : construire une gouvernance data. Innover par la donnée demande une connaissance accrue de ses données.  Où sont stockées mes données ? Qui les utilise ? Dans quel but ? Comment sont-elles utilisées ?

Pour aider les professionnels de la data à cartographier et visualiser le cycle de vie des données, des nouveaux outils apparaissent : on les appelle « Data Catalog« . Implémentés au dessus des infrastructures data, ils permettent de créer un répertoire de métadonnées requêtable. Ils permettent d’acquérir une vision métier et techniques de ses données en centralisant l’ensemble des informations collectées. De la même façon que Google ne stocke pas les pages web mais ses métadonnées pour les référencer, les entreprises doivent stocker les métadonnées de leurs données pour faciliter l’exploitation et la découverte de celles-ci. Gartner le confirme dans son enquête “Data Catalog is the new black”, sans une gestion et une gouvernance des métadonnées des données de votre data lake, celui-ci sera considéré comme inefficace.
Grâce à ces nouveaux outils, la donnée devient un actif pour l’ensemble des employés. L’interface facile d’utilisation, ne nécessitant pas de compétences techniques, devient un moyen simple pour connaitre, organiser et gérer ses données. Le data catalog devient l’outil data collaboratif de référence dans l’entreprise.

Acquérir une vision d’ensemble de ses données et démarrer une gouvernance data pour mener des idéations devient ainsi possible.