25 nov. 2024

Comment construire votre stack data moderne ? Comparaison des approches possibles

Le meilleur investissement que vous puissiez faire si vous voulez mieux exploiter vos données, c’est construire une stack data moderne.

La stack data, c’est l’ensemble des outils gravitant autour du data warehouse qui va vous permettre de valoriser vos données et de pleinement les exploiter dans vos applicatifs métier.

Il existe essentiellement 3 approches pour construire une stack data moderne :

L’approche best of breed : vous construisez chaque brique de la stack data en choisissant les meilleurs outils de leur catégorie.
L’approche agence : vous confiez la construction de la stack data à un prestataire.
L’approche tout-en-un : vous connectez à votre data warehouse un outil de Data Ops capable de gérer l’ensemble des traitements nécessaires à la valorisation des données.

Nous nous focalisons dans cet article sur les stack data modernes. Ces stack data, construites à partir d’outils cloud et d’outils self service (no ou low code) sont moins lourdes, moins chères, moins IT-dependantes que les stack data du passé. Elles deviennent la norme, surtout dans les entreprises les plus matures.

Qu’est-ce qu’une stack data (moderne) ?
Les composantes d’une Stack Data Moderne
3 approches pour construire votre Stack Data

Qu’est-ce qu’une stack data (moderne) ?

Pour comprendre la fonction clé d’une stack data aujourd’hui, il faut partir de ce constat évident : les données, en particulier les données clients au sens large, sont l’un des actifs les plus précieux des entreprises. Sauf que ces données sont généralement sous-utilisées et ne délivrent pas toute la valeur qu’elle détienne.

Pour être pleinement valorisées, les données doivent être correctement connectées, consolidées, nettoyées, préparées, transformées, enrichies et activées dans les outils de destination : CRM, marketing Automation, analytics/BI…

La stack data désigne l’assemblage cohérent d’outils qui sert à réaliser toutes ces opérations, de la connexion des données à leur activation en passant par leur préparation et enrichissement.

A quoi reconnaît-on une organisation data-driven ? Au fait qu’elle dispose d’une stack data moderne ! Avoir une stack data est une condition nécessaire, bien que pas suffisante, pour devenir data-driven.

La stack data facilite la circulation des données dans l’organisation et leur exploitation par les différents utilisateurs finaux.

Les stack data qualifiées de « modernes » ont 2 caractéristiques essentielles qui les distinguent des anciennes stack data. Elles se basent sur :

Des solutions cloud, et en particulier un data warehouse cloud servant de pivot, de « hub des données ».
Des outils low ou no-code (on parle aussi d’outils self-service) qui permettent de démocratiser l’accès et la manipulation des données.

Les composantes d’une Stack Data Moderne

La stack data moderne est un ensemble d’outils gravitant autour d’un data warehouse construit sur une plateforme cloud. Une stack data moderne contient 5 briques clés, 5 composantes fondamentales qu’on peut désigner par des verbes :

Collecter. Une entreprise possède une dizaine, une vingtaine, une trentaine de sources de données. C’est grâce à elles que l’organisation collecte les données sur les différents canaux et aux différentes étapes des parcours clients.
Connecter (ou « charger », ou « stocker »). Les sources de données sont connectées à un data warehouse (DWH) cloud qui sert de réceptacle principale des données.
Transformer. Les données sont préparées, consolidées, nettoyées, transformées au moyen d’outils spécifiques. Si la transformation des données précède leur chargement dans le DWH, on parle d’outils ETL (Extract-Transform-Load). Dans le cas contraire, de plus en plus fréquent, on parle d’outils ELT (Extract-Load-Transform).
Analyser. Les données stockées dans le DWH sont utilisées pour produire des analyses, des reportings, des data visualisations via des outils de Business Intelligence (BI).
Activer. Les données du DWH ne servent pas seulement à créer des reportings, elles servent aussi à alimenter les outils d’activation (CRM, marketing automation…), via une solution « Reverse ETL ».

Chacune de ces composantes de la stack data moderne désigne une étape du cycle de vie des données et fait appel à un ou plusieurs outils.

Nous allons vous décrire plus précisément chacune de ces composantes, en vous épargnant la première qui nous amènerait à vous détailler les différentes sources de données utilisées par les entreprises. On va éviter la liste à la Prévert.

Connecter – Charger – Stocker : la place pivot du Data Warehouse

Le data warehouse sert de réceptacle des données. Il met en connexion l’ensemble des sources de données de l’entreprise et permet ainsi de stocker l’ensemble des données de l’organisation dans un même endroit. Comme nous le disions plus haut, le DWH joue le rôle de pivot de la stack data moderne. C’est autour de lui que gravitent toutes les autres composantes. C’est l’émergence de cette nouvelle génération de data warehouse basés dans le cloud qui a permis le développement de la stack data moderne.

Le data warehouse a la capacité de stocker tous types de données. Lorsqu’il permet même de stocker des données non structurées, « en vrac », on parle de « data lake ». D’ailleurs, dans certaines organisations, le data warehouse cloud est construit en aval d’un data lake qui accueille de manière indifférenciée toutes les données générées par les sources.

Comment intégrer les données dans le data warehouse ?

Il existe plusieurs réponses à cette question. Nous vous proposons un panorama des différentes familles d’outils permettant de connecter vos sources de données à votre data warehouse.

Un data warehouse cloud est une solution scalable et puissante. La réduction des coûts de stockage et l’augmentation de la puissance de calcul (qui permet d’exécuter des requêtes SQL sur de gros volumes de données en quelques secondes) sont les deux évolutions majeures sur le marché des data warehouses – évolutions permises grâce au cloud.

Les solutions DWH les plus connues du marché restent celles proposées par les GAFAM :

Microsoft Azure
Google BigQuery
Amazon Redshift (le pionnier des solutions DWH cloud).

On observe depuis le début des années 2020 la montée en puissance de « pure players », Snowflake en tête.

bigquery-snowflake-redshift-1024x474 — Légende : Medium. Mai 2020. Redshift plafonne, BigQuery monte, Snowflake explose.

Voici 2 autres caractéristiques des data warehouses cloud, pour achever de brosser le tableau de cette technologie incontournable :

Les DWH sont serverless. Vous n’avez pas à gérer les serveurs. Ils sont fournis et maintenus par l’éditeur.
Les DWH sont facturés à l’usage. Vous payez ce que vous utilisez, que ce soit en termes d’espace de stockage ou de puissance de calcul. Certaines solutions, comme Snowflake, facturent distinctement le stockage et le computing, ce qui augmente encore la souplesse tarifaire.

Ingérer : la gestion des pipelines de données via une solution ELT/ETL

La deuxième composante de la Stack Data regroupe l’ensemble des outils qui permettent de faire circuler les données entre les différents systèmes. Et plus précisément : entre les sources de données et le data warehouse.

Une solution ELT ou ETL sert à brancher les sources de données (outils marketing, réseaux sociaux, logs, APIs…) au data warehouse.

Il y a essentiellement deux manières d’intégrer les données :

ETL. La première consiste à transformer les données avant de les charger dans le data warehouse. Si bien que les données arrivent bien préparées dans l’entrepôt de données en fonction des règles de modélisation de votre DWH. C’est l’option traditionnelle que l’on appelle ETL : Extract – Transform – Load, qui était utilisée dans les stack data anciennes. On transforme (T) avant de charger (L).
EL(T). La deuxième approche, plus moderne et plus souple, consiste à utiliser un outil qui va charger les données dans le data warehouse sans les transformer. Dans ce cas, les transformations des données sont réalisées en aval, soit par le même outil, soit par un autre outil, soit en utilisant les fonctions proposées nativement par l’éditeur du data warehouse. On parle alors d’EL(T).

Dans la famille des outils EL(T), on trouve notamment Stitch ou Fivetran. 2 références. Ces solutions ont développé des connecteurs avec des solutions leaders (Facebook, Salesforce, Google Analytics…) qui vous permettent de connecter vos sources de données à votre entrepôt de données en quelques secondes, via une interface no-code.

Le modèle économique de ces solutions est basé sur le volume de données ingéré, exprimé en nombre d’événements ou en lignes. A noter qu’il existe aussi des outils EL(T) open source, donc gratuits, mais dont la prise en main requiert des compétences IT. Je pense notamment à Airbyte, ou bien au framework Singer, qui propose une belle bibliothèque de scripts écrits en Python pour connecter vos sources au data warehouse. Pour la petite histoire, Stitch utilise le code de Singer pour créer ses connecteurs en 3 clics.

En optant pour un outil ELT payant comme Stitch ou Fivetran, ce que vous payez, c’est l’interface user-friendly et les connecteurs natifs, pas la technologie sous-jacente qui s’appuie généralement sur des frameworks open source. Après, il y a clairement un ROI à utiliser un outil payant, surtout si vous êtes une jeune entreprise et que vous n’avez pas les compétences internes pour utiliser un framework open source. Les connecteurs facilitent quand même vraiment la vie !

Transformer : le nettoyage et la consolidation des données

Avec des outils ETL ou ELT (sans parenthèses sur le « T »), la transformation des données est réalisée par le même outil que celui utilisé pour charger les données dans le data warehouse. Vous avez un même outil qui s’occupe du « L » et du « T ». Un exemple de logiciel ELT ? Weld, par exemple.

Mais la tendance générale consiste à utiliser des outils différents pour ces deux opérations.

Dans une stack data moderne, on a généralement :

Un outil EL qui sert à créer les pipelines de données, à charger les données provenant de vos différentes sources dans le data warehouse.
Un outil de data prep qui transforme les données de votre data warehouse.

Transformer des données consiste à appliquer aux données chargées dans le DWH un certain nombre de règles et de fonctions adaptées à vos cas d’usage et au design du Data Warehouse. Les opérations de transformation classiques incluent, notamment, le renommage de colonnes, la jonction de plusieurs tables, l’agrégation de données…

Un exemple d’outil ? dbt. Cette solution permet aux data analysts et aux data engineers de transformer les données du DWH beaucoup plus facilement qu’auparavant, via l’édition de codes de transformation SQL. dbt fait partie de ces outils dont on parle beaucoup en ce moment, et à juste titre tant la solution est à la fois simple et puissante. C’est grâce à ce genre d’outils qu’un data analyst peut gérer la transformation des données lui-même, sans avoir besoin de l’appui d’un data engineer ou d’un développeur Python. Précisons que dbt est open source, même s’ils proposent aussi une version payante.

Exemple Stack Data — dbt est l’outil de référence pour transformer les données stockées dans le Data Warehouse, via des scripts SQL.

Il existe quelques concurrents à dbt, notamment :

Dataform, récemment acheté par Google Cloud.
Databricks, qui a signé un partenariat avec Google Cloud (mais fonctionne aussi sur Azure et AWS).

Passons à l’étape suivante. A quoi servent les données transformées du data warehouse ? A faire deux choses : de l’analyse et de l’activation. Commençons par l’analyse.

Analyser : la solution de DataViz / BI

Les données organisées du data warehouse sont d’abord utilisées pour alimenter un outil de Business Intelligence (BI) qui sert à construire des reportings, des tableaux de bord, des data visualisations, des modèles prédictifs.

L’analyse des données permet de piloter les performances de l’entreprise, d’identifier des tendances, des évolutions, de mieux cerner les parcours clients, de mieux comprendre le comportement des clients, d’identifier la part de chaque canal dans la performance (via des modèles d’attribution) et de manière plus générale d’éclairer les prises de décision.

L’analyse des données s’effectue depuis un outil de Business Intelligence (comme Tableau, Looker, PowerBI ou QlikView), dont l’utilisateur principal est le data analyst. Ces outils permettent de créer des reportings avancés à partir de toutes les données du Data Warehouse auxquelles ils sont connectés via des connecteurs ou des APIs.

Ces outils coûtent relativement cher, sauf Google Data Studio, qui est 100% gratuit. Data Studio est une solution assez puissante, que nous avons beaucoup utilisée dans notre passé de consultants, et qui a l’avantage (par définition) de bien s’intégrer à l’écosystème de Google Cloud. On recommande aussi Metabase, qui est un outil de BI open source.

data-studio-ecommerce-1024x593-1 — Un exemple de reporting Data Studio.

Les reportings sont synchronisés avec toutes les sources que vous voulez (votre data warehouse, Google Ads, les réseaux sociaux, des spreadsheets, etc.) et donc mis à jour en temps réel. Les outils de BI ont fait de gros efforts pour proposer des interfaces très simples d’utilisation. Ils proposent des templates de reporting souvent très bien pensés et qui permettent de gagner beaucoup de temps.

Les outils de BI sont aussi appelés « outils de DataViz » ou « outils de Data Visualization » dans le sens où ils permettent de présenter les données de manière visuelle, sous forme de graphiques, de tableaux, de courbes, de charts…

Dashboards ecommerce Google Data Studio

Google Data Studio est une solution de BI gratuite et proposant de nombreux templates personnalisables de bonne qualité.

Activer : le Reverse ETL pour redistribuer les données à vos outils

Il y a encore quelques années, les données stockées dans le data warehouse n’étaient utilisées que pour faire du reporting et de l’analyse. Le data warehouse servait de socle de la BI. C’était sa seule fonction. Les temps ont changé et l’une des caractéristiques de la stack data moderne est l’avènement de ce qu’on appelle les Reverse ETL.

Un Reverse ETL, comme l’indique son nom, fait l’inverse d’un outil ETL. Un outil ETL charge les données en provenance de vos sources de données dans le data warehouse. Un Reverse ETL est une solution qui sert à extraire les données stockées dans le data warehouse pour les mettre à disposition des outils d’activation / business : CRM, marketing automation, help desk, comptabilité…

Un Reverse ETL permet de mettre les données du data warehouse au service des équipes métiers : marketing, ventes, service client, digital, finance…Il synchronise les données agrégées du DWH dans les applicatifs utilisés au quotidien par le métier.

Avec un Reverse ETL, par exemple, vous pouvez intégrer les données Stripe et Zendesk (préalablement chargées dans le data warehouse) dans votre CRM Hubspot.

Si on avait parlé des Reverse ETL à un DSI des années 2000, il nous aurait ri au nez. Qu’un data warehouse serve à alimenter un CRM (via notre Reverse ETL) était une idée absurde. Le data warehouse était le réceptable des données froides, le CRM et les outils d’activation en général le réceptacle des données chaudes. Mais avec l’avènement de la nouvelle génération de data warehouse cloud, les règles du jeu changent : le data warehouse peut devenir un référentiel opérationnel. Et ça change tout !

3 approches pour construire votre Stack Data

Voici les 3 options qui s’offrent à vous pour construire votre stack data moderne. Pour construire notre tableau, nous avons pris pour hypothèse une entreprise ayant un effectif d’une cinquantaine de personnes.

Option #1 – Construire en interne une Stack Data best of breed

La première option consiste à construire votre stack data moderne vous-même en allant chercher le « meilleur » outil de chaque catégorie. Voici les grandes étapes à suivre si vous optez pour cette option :

Définir vos objectifs et l’organisation cible. Pour quelles raisons souhaitez-vous déployer une stack data moderne ? Vous devez partir des objectifs de votre organisation et ensuite les décliner en cas d’usage data. Ce travail incontournable d’expression du besoin vous aidera à prendre les bonnes décisions tout au long de votre projet.
Choisir les outils de votre stack data. Nous avons passé en revue les principales composantes d’une stack data moderne. Pour chaque composante, il existe plusieurs outils possibles. A vous de choisir ceux qui répondent le mieux à vos objectifs, vos besoins, vos contraintes, votre budget. Ne souscrivez pas un seul abonnement à un logiciel avant d’avoir une vision cible des principaux outils qui constitueront votre stack data. Le choix le plus structurant est celui du data warehouse. Choisissez ensuite votre ETL/ELT, votre outil de data transformation, votre Reverse ETL, votre outil de BI. Vous devez choisir des outils qui se connectent bien entre eux. Le critère de la connectivité est l’un des principaux à prendre en compte. Typiquement, des outils comme Fivetran ou Stitch se valent à peu près, ils font la même chose, la différence réside surtout au niveau des capacités d’intégration, des connecteurs disponibles.
Mettre en place les pipelines de données et configurer le data warehouse. L’étape suivante consiste à construire les flux de données entre vos sources de données et votre data warehouse, via votre outil EL(T)/ETL. Vous devez aussi construire le modèle de données de votre data warehouse, c’est-à-dire définir la manière dont les données vont s’organiser dans les tables de votre DWH. C’est sans doute l’étape la plus technique, celle qui nécessite de vraies compétences IT (maîtrise de SQL en particulier).
Construire vos premiers reportings. C’est une étape techniquement facile. Les outils de BI proposent des interfaces user-friendly et permettent de connecter les sources de données de manière relativement simple. La difficulté est de construire des reportings intelligents, pertinents, utiles, bien pensés. Si vous n’avez pas besoin de compétences IT pour construire vos premiers rapports, vous devrez en revanche vous entourer de professionnels de la data : en particulier d’un ou de plusieurs data analysts.
Définir les process internes. L’avantage d’une stack data moderne, c’est qu’elle est utilisable par presque tout le monde. Mais cela fait naître un risque au niveau de l’intégrité de vos données. Il est donc essentiel de définir des process internes, des règles en matière de traitement des données, de gestion des accès et des droits, de définir des procédures, des rôles, d’établir une documentation, etc. Bref, vous devez poser les bases d’une bonne et saine Gouvernance des Données. Où l’on voit que construire une stack data moderne est un projet autant organisationnel que technique…
Définir une roadmap. Nous vous recommandons d’adopter une approche progressive dans le déploiement de votre stack data. C’est un projet suffisamment complexe et chronophage en soi…donc ne cherchez pas à tout transformer d’un coup. Nous pensons en particulier ici aux cas d’usage de la stack data. Ils ont vocation à augmenter avec le temps, à s’enrichir, à s’affiner. Mais ne cherchez pas à les déployer tous en même temps. Commencez par les cas d’usage prioritaires. Nous vous conseillons aussi de mettre en place une bonne direction de projet, avec des instances de pilotage.

Option #2 – Déléguer la mise en place de votre Stack Data à une agence

La deuxième option, plus coûteuse, consiste à déléguer la construction de votre Stack Data à une agence. Voici les étapes à suivre si c’est l’option que vous choisissez :

Définir vos besoins. Vous devez construire un cahier des charges solide dans lequel vous formalisez vos objectifs, décrivez votre situation actuelle (notamment l’état de votre écosystème Data/Tech), vos cas d’usage cibles en matière de données. Vous devez être le plus exhaustif et précis possible. Le cahier des charges va vous forcer à bien formaliser l’expression de votre besoin et à la partager à votre agence partenaire. C’est le document qui servira de point de repère tout au long du projet.
Choisir l’agence. Il existe des dizaines et des dizaines d’agences data sur le marché. Vous devez choisir celle la plus en phase avec votre besoin, vos attentes, vos contraintes…Nous vous conseillons de tester au moins 3 ou 4 agences. Interrogez-les sur votre projet, vous pourrez les évaluer en fonction de la manière dont elles répondent à vos questions et comprennent votre cahier des charges. Pensez aussi à scruter les références clients des agences ciblées. Nous vous conseillons même de demander aux agences cibles des exemples de cas clients proches du vôtre. Allez même plus loin : demandez à l’agence de vous communiquer les coordonnées d’1 ou 2 clients pour les contacter et leur demander un retour d’expérience.
Suivre de près le projet. Il est important de mettre en place des instances de pilotage (points hebdos, CoPil) afin de suivre de près l’avancement du projet, éviter les dérives, contrôler le respect du planning et du budget. La qualité de la communication entre votre entreprise et l’agence est clé si vous voulez obtenir des livrables et des résultats à la hauteur de vos espérances.

Option #3 – Construire en interne une Stack Data via une solution tout-en-un

Nous avons défini la stack data moderne comme une imbrication d’outils. Pour être plus précis, il faudrait parler d’une imbrication de fonctions, dans la mesure où il existe des outils tout-en-un couvrant plusieurs composantes de la stack data.

Un outil comme Brevo par exemple gère à la fois l’ingestion des données, leur modélisation et leur « opérationnalisation », c’est-à-dire la redistribution des données du DWH aux outils de destination. Brevo joue donc à la fois le rôle d’outil EL(T), d’outil de data prep et de Reverse ETL. Nous sommes ce que l’on appelle un outil de « DataOps ».

La troisième option que nous présentons consiste donc à construire votre Stack Data Moderne à partir de deux solutions clés :

Un data warehouse cloud.
Un outil tout-en-un de « DataOps ».

Cette option a plusieurs avantages :

Elle est plus rapide à déployer.
Elle est plus simple à déployer et à prendre en main. Pas besoin d’avoir une grosse équipe data, vous n’avez besoin que d’un data analyst ou d’un analytics engineer pour construire les rapports (et vous aider à paramétrer le DWH).
Elle est moins coûteuse. Un outil de Data Ops coûte moins cher comparé à l’addition des coûts d’un EL(T), d’un outil de data prep et d’un Reverse ETL.
Résultat : le ROI est plus rapide.
Enfin, c’est une solution souple et scalable.

C’est l’option que nous recommandions souvent dans notre vie de consultants et c’est pourquoi nous avons développé Brevo. Cette option est particulièrement recommandée pour les entreprises de mid-market (PME) qui n’ont ni les grosses équipes data nécessaires pour construire une stack data best of breed ni le budget pour confier le travail à une agence.

Si vous choisissez cette option, voici schématiquement les étapes à suivre :

Définir les besoins. Dans cette option comme dans les autres, il faut commencer par formaliser les objectifs, les besoins métiers et les cas d’usage de la stack data. C’est la base de tout projet data !
Choisir un data warehouse et une solution Data Ops. Dans cette option d’organisation, les deux outils clés sont le data warehouse, réceptacle des données, et l’outil de Data Ops qui va servir à réaliser la plupart des opérations sur les données que nous avons décrites dans la première section de l’article.
Installer la stack data à partir de la solution de Data Ops. C’est dans la solution de Data Ops que vous allez connecter vos sources à votre data warehouse, préparer les données (nettoyage des données, consolidation, enrichissement, agrégation) et synchroniser les données agrégées dans les outils de destination.

Construire les premiers rapports, en utilisant un outil de BI comme Metabase ou Data Studio. Vous allez avoir besoin de quelques jours de travail de votre data analyst pour produire les rapports clés. Ne construisez pas une usine à gaz, concentrez-vous sur les quelques rapports prioritaires pour le suivi de votre activité.
Définir la roadmap et les process internes. Même commentaire que pour l’option 1. Définissez une roadmap de déploiement et d’évolution de votre stack data et mettez en place une gouvernance des données pour préserver l’intégrité de la stacj, des données, et encadrer l’utilisation des outils.

Le choix de la méthode de construction de votre stack data doit être en adéquation avec la taille de votre entreprise, vos cas d’usage cibles, vos contraintes (IT, budgétaires) et les caractéristiques de l’organisation (taille de l’équipe data).

Les trois options que nous vous avons présentées ont chacune leur intérêt. Nous sommes convaincus que la troisième est celle qui convient le mieux aux entreprises mid-market : les startups dans leur première phase de croissance et les PME ayant une maturité data intermédiaire et une équipe data réduite à 1 ou 2 personnes.