Inspiration data

Google Goods : l’outil de gestion et de démocratisation des données de Google

Quand on s’appelle Google, la question des données est plus que centrale. Un nombre colossal d’informations est en effet généré chaque jour à travers le monde, par toutes les équipes de cet empire américain. C’est pour recouper, hiérarchiser et unifier les données que Google Goods, un catalogue centralisé de données, a été mis en place.

Cet article fait partie d’une série consacrée aux entreprises Data Driven. Nous mettons en lumière des exemples réussis de démocratisation et de maîtrise des données, au sein d’organisations inspirantes. Retrouvez l’exemple d’Airbnb sur ce lien. Ces entreprises précurseurs démontrent l’ambition que s’est donnée Zeenea et son data catalog : aider les organisations à mieux comprendre et utiliser son patrimoine de données.

Google en quelques chiffres

Le moteur de recherche le plus utilisé de la planète n’est plus vraiment à présenter. Mais que se cache-t-il derrière cette interface si familière ? Que représente Google en terme de part de marché, d’infrastructures, d’employés et de présence dans le monde ?

En 2018 Google c’est [1] :

  • 90,6 % de part de marché dans le monde
  • 30 millions de sites indexés
  • 500 millions de nouvelles requêtes chaque jour

En terme d’infrastructure et d’emploi, Google représentait en 2017 [2] :

  • 70 053 employés
  • 21 bureaux dans 11 pays
  • 2 millions d’ordinateurs répartis dans 60 datacenter
  • 850 teraoctets pour stocker en cache toutes les pages indexées
google-goods-08

Devant une telle envergure, la somme de données générées est forcément gigantesque. Face au constat de la redondance des données et du besoin de précision pour l’emploi de ces dernières, Google a mis en place Google Goods, un catalogue de données travaillant en toile de fond pour organiser et faciliter la compréhension des données.

Les réflexions qui ont menées à Google Goods

Google possède plus de 26 milliards de données internes [3]. Et cela seulement pour la data accessible à tous les membres de l’entreprise.

En prenant en compte les données sensibles recourant à des accès sécurisés, le nombre pourrait doubler. Cette somme de données engendre nécessairement des problèmes et interrogations que Google a répertorié pour concevoir son outil :

Une échelle de données titanesque

Considérant le chiffre annoncé précédemment, Google fait face à un problème non négligeable. La quantité de data et leur taille lui rend impossible un traitement de toutes les données. Il est donc primordial de pouvoir déterminer lesquelles sont utiles et lesquelles ignorer.

Le système exclut déjà un certain nombre d’informations jugées inutiles et parvient à déterminer certaines redondances. Il est ainsi possible de créer des chemins d’accès uniques vers des données, sans qu’elles ne soient stockées à différents endroits au sein du catalogue.

La variété des données

Les jeux de données sont stockés dans de nombreux formats et sur des systèmes de stockage très différents. Cela ajoute à la difficulté de créer une unification de la data. Pour Goods, c’est un véritable challenge et un objectif crucial : proposer un moyen uniforme d’interroger et d’accéder à l’information sans que la complexité de l’infrastructure ne transparaisse.

La pertinence des données

Google estime supprimer chaque jour 1 million de données et en créer tout autant. Cela met l’accent sur la nécessité de prioriser les données et d’établir leur degré de pertinence. Certaines sont cruciales dans des chaînes de traitement mais n’ont de valeur que quelques jours, d’autres ont une fin de vie programmée dont l’échéance peut être de plusieurs semaines à quelques heures.

Le caractère incertain des métadonnées

Beaucoup de données cataloguées sont issues de protocoles différents, rendant la certification des métadonnées complexe. Goods procède donc par tâtonnement afin de créer des hypothèses. Cela est dû au fait qu’il fonctionne de façon post hoc. En effet, les collaborateurs ne sont pas amenés à changer leur façon de travailler. Il ne leur est pas demandé d’associer des jeux de données à des métadonnées lors de leur création. C’est à Goods de travailler en collectant et analysant les données pour les réunir et les clarifier, en vue d’un usage futur.

Une échelle de priorité

Après le travail de découverte et de catalogage, la question de la hiérarchisation se pose. L’enjeu est de pouvoir répondre à cette question : « qu’est-ce qui rend une donnée importante ? ». Et fournir une réponse est bien moins simple pour les données d’une entreprise que pour prioriser la recherche sur le web par exemple. Pour tenter de mettre en place un classement pertinent, Goods se base sur les interactions entre les données, les métadonnées ainsi que d’autres critères. L’outil estime par exemple qu’une donnée est plus importante si son auteur y a associé une description. Ou si plusieurs équipes la consultent, l’utilisent ou l’annotent.

Analyser la sémantique de la donnée

Procéder à cette analyse permet notamment de mieux classifier et décrire la donnée dans l’outil de recherche. Elle peut ainsi répondre aux bonnes requêtes dans le catalogue. L’exemple donné dans l’article de référence sur Google Goods [3] : supposons le schéma d’un ensemble de données soit connu et que certains champs du schéma prennent des valeurs entières. Grâce à une inférence sur le contenu de l’ensemble de données, l’utilisateur puisse identifier que ces valeurs entières sont des ID de points de repère géographiques connus pour ensuite, utiliser ce type de sémantique de contenu pour améliorer la recherche de données géographiques dans l’outil.

Fonctionnalités de Google Goods

Google Goods catalogue et analyse la data pour la présenter de manière unifiée. L’outil récolte les métadonnées de base et tente de les enrichir en analysant un certain nombre de paramètres. À force de visiter les données et les métadonnées, Goods s’enrichit et évolue.

Les principales fonctionnalités offertes aux utilisateurs sont :

Un moteur de recherche

À l’instar du Google que nous connaissons, Goods offre un moteur de recherche fonctionnant par mot clé afin d’interroger un jeu de données. C’est le moment où l’enjeu de hiérarchisation des données se met en place. Le moteur de recherche propose de la data classée selon différents critères comme le nombre de chaînes de traitement impliquées, la présence ou non d’une description, etc.

Page de présentation des données

Chaque donnée dispose d’une page réunissant le maximum d’informations. Considérant que certaines données peuvent être reliées à des milliers d’autres, Google compresse en amont les data les plus pharaoniques pour les restituer de manière plus digeste sur la page de présentation. Si la version compressée reste trop imposante, les informations exposées ne retiennent que les entrées les plus récentes.

Tableaux d’équipe

Goods crée des tableaux permettant de diffuser toutes les données générées par une équipe. Cela permet d’obtenir différentes métriques et de faire le lien avec d’autres tableaux par exemple. Le tableau est actualisé à chaque fois que Goods met à jour les métadonnées. Le tableau peut être facilement intégré à différents documents pour que les équipes puissent le partager.
Par ailleurs, il est également possible de mettre en place des actions de monitorage et des alertes sur certaines données. Goods est en charge des vérifications et peut avertir les équipes en cas d’alerte.

Utilisation de Goods par les collaborateurs de Google

Au fil du temps, les équipes de Google ont réalisé que l’utilisation de son outil ainsi que son champ d’application, n’étaient pas forcément ceux auxquels l’entreprise s’attendait.

Le géant a ainsi pu déterminer que les usages principaux de Goods par les collaborateurs ainsi que leurs fonctionnalités favorites étaient :

Audit protocol buffer

Protocol buffer est un format de sérialisation doté d’un langage de description d’interface développé par Google. Il est largement utilisé chez Google pour le stockage et l’échange de toute sorte de structures d’informations.

Certains processus contiennent des informations personnelles et appartiennent de fait à des politiques de confidentialité particulières. L’audit de ces protocoles permet d’alerter les propriétaires de ces données en cas d’entrave à la confidentialité.

Récupération des données

Les ingénieurs sont amenés à générer de nombreuses données dans le cadre de leurs tests et oublient souvent leur localisation lorsqu’ils ont besoin d’y accéder à nouveau. Grâce au moteur de recherche, ils peuvent facilement les retrouver.

Meilleure compréhension du code legacy

Il n’est pas simple de trouver des informations à jour concernant le code ou les jeux de données. Goods fournit des graphiques que les ingénieurs peuvent utiliser pour remonter le fil des précédentes exécutions de codes, ainsi que les jeux de données en entrée et en sortie ettrouver la logique qui les lie.

Utilisation du système d’annotation

Le système de bookmark des pages de données est totalement adopté pour retrouver plus vite les informations importantes et les partager facilement.

Utilisation des marque pages

Il est possible d’annoter les données et de leur attribuer différents degrés de confidentialité. Cela permet aux autres membres de Google de mieux appréhender les données qu’ils ont en face d’eux.

Avec Goods, Google parvient à hiérarchiser et unifier l’accès aux données pour toutes ses équipes. Le système se veut non intrusif et fonctionne donc en continu et de manière invisible pour les utilisateurs, afin de leur restituer des données organisées et explicitées.Grâce à cela, la société améliore les performances des équipes en évitant les redondances. Elle économise des ressources et accélère l’accès aux données essentielles à la croissance et au développement de l’entreprise.

[1] Le blog du modérateur : https://www.blogdumoderateur.com/chiffres-google/
[2] Web Rank Info : https://www.webrankinfo.com/dossiers/google/chiffres-cles
[3] https://static.googleusercontent.com/media/research.google.com/fr//pubs/archive/45390.pdf

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *