Des tuyaux pour de meilleures décisions

Hervé Rincent

Hervé Rincent

5 janv. 2021

Je rencontre souvent des entrepreneur-e-s qui prennent leurs décisions au flair, à l'instinct. Bref, au feeling.

Des fois ça marche.

Mais ceux qui pilotent un business pérenne et profitable ont plutôt opté pour une autre méthode : prendre des décisions en s'appuyant sur des données.

Le problème est qu'il est souvent compliqué de procéder ainsi, parce que les données sont :

Et lorsqu'on parvient enfin à regrouper toutes ces données, on a seulement parcouru la moitié du chemin.

Pour faire l'autre moitié, il faut encore les présenter à ceux qui en ont besoin, sous une forme compréhensible (indicateurs, graphiques, listes filtrables), et sans douter de leur fiabilité.

Le mois dernier, j'ai consacré pas mal de temps à aider mes clients à fiabiliser leurs données. Et j'ai remarqué un point commun qui pourrait expliquer leurs difficultés : aucune d'entre eux n'a explicitement désigné quelqu'un en charge de cette question.

Personne ne s'occupe des tuyaux.

Oui, tout le monde veut analyser des données fiables, fraîches et en grande quantité. Mais personne ne s'occupe des tuyaux.

Ces tuyaux, les "data pipelines" servent à faire circuler les données entre les endroits ou elles sont produites (fichiers, bases de données, applications externes) et ceux ou on en a besoin.

Et selon la diversité des sources de données, la plomberie peut vite devenir compliquée.

Data engineering

Pour pimenter le tout, ça coule en continu dans les tuyaux : à chaque minute, de nouvelles données sont produites. On est en permanence exposé à un tuyau qui se bouche, ou pire : à une fuite (il manque des données).

Le data-engineering, c'est la plomberie des données. Ca consiste à construire un réseau de pipelines qui distribuent les données vers des consommateurs : les analystes.

Ces analystes peuvent avoir plusieurs profils :

Depuis quelques années, l'appétit de ces consommateurs devient pantagruélique.

On veut savoir. On veut comprendre. On veut convaincre. On veut anticiper.

ON VEUT DES DONNEES !

OK.

Et qui s'occupe des tuyaux ? Personne.

Ou plutôt si : j'observe que ce sont souvent les analystes qui se chargent d'aller chercher eux-mêmes les données dont ils ont besoin. Parfois avec une canne à pêche, faute de tuyaux.

Pourquoi est-ce plus compliqué qu'un copier/coller ?

Sans pipeline déjà disponible, certains passent beaucoup (trop) de temps à faire cette collecte.

Pourquoi est-ce chronophage ?

Parce qu'on ne peut pas exploiter directement des données brutes.

Les doublons doivent être supprimés. Il faut exclure les cas particuliers, les anomalies ou les valeurs aberrantes. On doit parfois combler des données manquantes, ou encore homogénéiser les formats (ah le cauchemar des dates qui ne sont jamais dans le même format : heure locale ? heure UTC ? Format US ? Format Excel ? ).

Les données évoluent au rythme des changements dans l'entreprise : des entités changent de nom, de nouvelles colonnes apparaissent dans les fichiers Excel.

Le temps consacré par chacun pour se constituer son pipeline personnel de données vient grignoter le temps consacré à analyser les données. Mais ce n'est pas le seul problème.

Vue l'énergie qu'on y a consacré, on n’a surtout pas envie que ça change. Et on finit par lever une armée de réfractaires aux changements, bien conscients du boulot fastidieux qui les attend.

Tout ce temps perdu gagnerait souvent à être investi sur une compétence dédiée.

Le/la data-engineer : son truc c'est les tuyaux.

L'ingénieur.e data (en VF) est celle/celui qui sait construire des pipelines de données. C'est un métier assez récent, et qui nécessite 3 types de compétences :

En ce qui concerne les technologies, on trouve dans la caisse à outil du data engineer :

Logstash

Ce ne sont pas les technos qui manquent !

Mais il y a aussi un volet organisationnel pour maintenir la cohérence d'ensemblelorsque le volume des données s'accroît. Il faut avoir réfléchi à la façon dont on nomme les choses, en particulier :

Ca se traduit par un coté opérationnel dans le métier du data engineer ("DataOps") pour surveiller que les volumes des données à l'entrées des pipelines restent cohérents avec ceux que l'on trouve à la sortie. Car rien n'est pire que de décider sur la base de données erronées ou manquantes.

Il y a encore peu d'outils qui sont dédiés à ce contrôle qualité. Je ne serais pas surpris d'en voir émerger bientôt.


Continuer la lecture

Le découpage d'un logiciel

12 janv. 2021

3 min read

Le découpage d'un logiciel

Lire l'article
Arrêtez de stocker des valeurs

15 déc. 2020

5 min read

Arrêtez de stocker des valeurs

Lire l'article
Inscription à la newsletter

Recevez chaque semaine un article pour réfléchir à votre prochain projet tech/data

gratuit, sans spam, désinscription en 1 clic

Merci ! Regardez dans botre boite mail. Un lien de confirmation n'attend plus que votre clic.
Arghh il semble compliqué de vous ajouter à la liste de diffusion. Et si vous m'envoyiez un mail directement à contact@camilab.co ?