Le meilleur investissement que vous puissiez faire si vous voulez mieux exploiter vos données, c’est construire une stack data moderne.
La stack data, c’est l’ensemble des outils gravitant autour du data warehouse qui va vous permettre de valoriser vos données et de pleinement les exploiter dans vos applicatifs métier.
Il existe essentiellement 3 approches pour construire une stack data moderne :
Nous nous focalisons dans cet article sur les stack data modernes. Ces stack data, construites à partir d’outils cloud et d’outils self service (no ou low code) sont moins lourdes, moins chères, moins IT-dependantes que les stack data du passé. Elles deviennent la norme, surtout dans les entreprises les plus matures.
📕 Sommaire
Qu’est-ce qu’une stack data (moderne) ?
Pour comprendre la fonction clé d’une stack data aujourd’hui, il faut partir de ce constat évident : les données, en particulier les données clients au sens large, sont l’un des actifs les plus précieux des entreprises. Sauf que ces données sont généralement sous-utilisées et ne délivrent pas toute la valeur qu’elle détienne.
Pour être pleinement valorisées, les données doivent être correctement connectées, consolidées, nettoyées, préparées, transformées, enrichies et activées dans les outils de destination : CRM, marketing Automation, analytics/BI…
La stack data désigne l’assemblage cohérent d’outils qui sert à réaliser toutes ces opérations, de la connexion des données à leur activation en passant par leur préparation et enrichissement.
A quoi reconnaît-on une organisation data-driven ? Au fait qu’elle dispose d’une stack data moderne ! Avoir une stack data est une condition nécessaire, bien que pas suffisante, pour devenir data-driven.
La stack data facilite la circulation des données dans l’organisation et leur exploitation par les différents utilisateurs finaux.
Les stack data qualifiées de « modernes » ont 2 caractéristiques essentielles qui les distinguent des anciennes stack data. Elles se basent sur :
Les composantes d’une Stack Data Moderne
La stack data moderne est un ensemble d’outils gravitant autour d’un data warehouse construit sur une plateforme cloud. Une stack data moderne contient 5 briques clés, 5 composantes fondamentales qu’on peut désigner par des verbes :
Chacune de ces composantes de la stack data moderne désigne une étape du cycle de vie des données et fait appel à un ou plusieurs outils.
Nous allons vous décrire plus précisément chacune de ces composantes, en vous épargnant la première qui nous amènerait à vous détailler les différentes sources de données utilisées par les entreprises. On va éviter la liste à la Prévert.
Connecter – Charger – Stocker : la place pivot du Data Warehouse
Le data warehouse sert de réceptacle des données. Il met en connexion l’ensemble des sources de données de l’entreprise et permet ainsi de stocker l’ensemble des données de l’organisation dans un même endroit. Comme nous le disions plus haut, le DWH joue le rôle de pivot de la stack data moderne. C’est autour de lui que gravitent toutes les autres composantes. C’est l’émergence de cette nouvelle génération de data warehouse basés dans le cloud qui a permis le développement de la stack data moderne.
Le data warehouse a la capacité de stocker tous types de données. Lorsqu’il permet même de stocker des données non structurées, « en vrac », on parle de « data lake ». D’ailleurs, dans certaines organisations, le data warehouse cloud est construit en aval d’un data lake qui accueille de manière indifférenciée toutes les données générées par les sources.
Un data warehouse cloud est une solution scalable et puissante. La réduction des coûts de stockage et l’augmentation de la puissance de calcul (qui permet d’exécuter des requêtes SQL sur de gros volumes de données en quelques secondes) sont les deux évolutions majeures sur le marché des data warehouses – évolutions permises grâce au cloud.
Les solutions DWH les plus connues du marché restent celles proposées par les GAFAM :
On observe depuis le début des années 2020 la montée en puissance de « pure players », Snowflake en tête.
Voici 2 autres caractéristiques des data warehouses cloud, pour achever de brosser le tableau de cette technologie incontournable :
Ingérer : la gestion des pipelines de données via une solution ELT/ETL
La deuxième composante de la Stack Data regroupe l’ensemble des outils qui permettent de faire circuler les données entre les différents systèmes. Et plus précisément : entre les sources de données et le data warehouse.
Une solution ELT ou ETL sert à brancher les sources de données (outils marketing, réseaux sociaux, logs, APIs…) au data warehouse.
Il y a essentiellement deux manières d’intégrer les données :
Dans la famille des outils EL(T), on trouve notamment Stitch ou Fivetran. 2 références. Ces solutions ont développé des connecteurs avec des solutions leaders (Facebook, Salesforce, Google Analytics…) qui vous permettent de connecter vos sources de données à votre entrepôt de données en quelques secondes, via une interface no-code.
Le modèle économique de ces solutions est basé sur le volume de données ingéré, exprimé en nombre d’événements ou en lignes. A noter qu’il existe aussi des outils EL(T) open source, donc gratuits, mais dont la prise en main requiert des compétences IT. Je pense notamment à Airbyte, ou bien au framework Singer, qui propose une belle bibliothèque de scripts écrits en Python pour connecter vos sources au data warehouse. Pour la petite histoire, Stitch utilise le code de Singer pour créer ses connecteurs en 3 clics.
En optant pour un outil ELT payant comme Stitch ou Fivetran, ce que vous payez, c’est l’interface user-friendly et les connecteurs natifs, pas la technologie sous-jacente qui s’appuie généralement sur des frameworks open source. Après, il y a clairement un ROI à utiliser un outil payant, surtout si vous êtes une jeune entreprise et que vous n’avez pas les compétences internes pour utiliser un framework open source. Les connecteurs facilitent quand même vraiment la vie !
Transformer : le nettoyage et la consolidation des données
Avec des outils ETL ou ELT (sans parenthèses sur le « T »), la transformation des données est réalisée par le même outil que celui utilisé pour charger les données dans le data warehouse. Vous avez un même outil qui s’occupe du « L » et du « T ». Un exemple de logiciel ELT ? Weld, par exemple.
Mais la tendance générale consiste à utiliser des outils différents pour ces deux opérations.
Dans une stack data moderne, on a généralement :
Transformer des données consiste à appliquer aux données chargées dans le DWH un certain nombre de règles et de fonctions adaptées à vos cas d’usage et au design du Data Warehouse. Les opérations de transformation classiques incluent, notamment, le renommage de colonnes, la jonction de plusieurs tables, l’agrégation de données…
Un exemple d’outil ? dbt. Cette solution permet aux data analysts et aux data engineers de transformer les données du DWH beaucoup plus facilement qu’auparavant, via l’édition de codes de transformation SQL. dbt fait partie de ces outils dont on parle beaucoup en ce moment, et à juste titre tant la solution est à la fois simple et puissante. C’est grâce à ce genre d’outils qu’un data analyst peut gérer la transformation des données lui-même, sans avoir besoin de l’appui d’un data engineer ou d’un développeur Python. Précisons que dbt est open source, même s’ils proposent aussi une version payante.
Il existe quelques concurrents à dbt, notamment :
Passons à l’étape suivante. A quoi servent les données transformées du data warehouse ? A faire deux choses : de l’analyse et de l’activation. Commençons par l’analyse.
Analyser : la solution de DataViz / BI
Les données organisées du data warehouse sont d’abord utilisées pour alimenter un outil de Business Intelligence (BI) qui sert à construire des reportings, des tableaux de bord, des data visualisations, des modèles prédictifs.
L’analyse des données permet de piloter les performances de l’entreprise, d’identifier des tendances, des évolutions, de mieux cerner les parcours clients, de mieux comprendre le comportement des clients, d’identifier la part de chaque canal dans la performance (via des modèles d’attribution) et de manière plus générale d’éclairer les prises de décision.
L’analyse des données s’effectue depuis un outil de Business Intelligence (comme Tableau, Looker, PowerBI ou QlikView), dont l’utilisateur principal est le data analyst. Ces outils permettent de créer des reportings avancés à partir de toutes les données du Data Warehouse auxquelles ils sont connectés via des connecteurs ou des APIs.
Ces outils coûtent relativement cher, sauf Google Data Studio, qui est 100% gratuit. Data Studio est une solution assez puissante, que nous avons beaucoup utilisée dans notre passé de consultants, et qui a l’avantage (par définition) de bien s’intégrer à l’écosystème de Google Cloud. On recommande aussi Metabase, qui est un outil de BI open source.
Les reportings sont synchronisés avec toutes les sources que vous voulez (votre data warehouse, Google Ads, les réseaux sociaux, des spreadsheets, etc.) et donc mis à jour en temps réel. Les outils de BI ont fait de gros efforts pour proposer des interfaces très simples d’utilisation. Ils proposent des templates de reporting souvent très bien pensés et qui permettent de gagner beaucoup de temps.
Les outils de BI sont aussi appelés « outils de DataViz » ou « outils de Data Visualization » dans le sens où ils permettent de présenter les données de manière visuelle, sous forme de graphiques, de tableaux, de courbes, de charts…
Activer : le Reverse ETL pour redistribuer les données à vos outils
Il y a encore quelques années, les données stockées dans le data warehouse n’étaient utilisées que pour faire du reporting et de l’analyse. Le data warehouse servait de socle de la BI. C’était sa seule fonction. Les temps ont changé et l’une des caractéristiques de la stack data moderne est l’avènement de ce qu’on appelle les Reverse ETL.
Un Reverse ETL, comme l’indique son nom, fait l’inverse d’un outil ETL. Un outil ETL charge les données en provenance de vos sources de données dans le data warehouse. Un Reverse ETL est une solution qui sert à extraire les données stockées dans le data warehouse pour les mettre à disposition des outils d’activation / business : CRM, marketing automation, help desk, comptabilité…
Un Reverse ETL permet de mettre les données du data warehouse au service des équipes métiers : marketing, ventes, service client, digital, finance…Il synchronise les données agrégées du DWH dans les applicatifs utilisés au quotidien par le métier.
Avec un Reverse ETL, par exemple, vous pouvez intégrer les données Stripe et Zendesk (préalablement chargées dans le data warehouse) dans votre CRM Hubspot.
Si vous vous allez plus loin, nous vous conseillons de jeter un œil à cette liste de ressources consacrée à la stack data moderne.
3 approches pour construire votre Stack Data
Voici les 3 options qui s’offrent à vous pour construire votre stack data moderne. Pour construire notre tableau, nous avons pris pour hypothèse une entreprise ayant un effectif d’une cinquantaine de personnes.
Best of breed | Outsourcée | Tout-en-un | |
---|---|---|---|
Ce dont vous avez besoin | Au moins 1 ingénieur analytics | Un budget significatif |
|
Combien ça coûte ? | Environ 500€ par mois pour les outils et quelques mois de votre ingénieur analytics |
|
|
Stack Techno | Un outil comme Fivetran + dbt + BigQuery + Metabase | Choisie par l'agence | Un outil comme BigQuery + Octolis + Metabase |
Option #1 – Construire en interne une Stack Data best of breed
La première option consiste à construire votre stack data moderne vous-même en allant chercher le « meilleur » outil de chaque catégorie. Voici les grandes étapes à suivre si vous optez pour cette option :
Option #2 – Déléguer la mise en place de votre Stack Data à une agence
La deuxième option, plus coûteuse, consiste à déléguer la construction de votre Stack Data à une agence. Voici les étapes à suivre si c’est l’option que vous choisissez :
Option #3 – Construire en interne une Stack Data via une solution tout-en-un
Nous avons défini la stack data moderne comme une imbrication d’outils. Pour être plus précis, il faudrait parler d’une imbrication de fonctions, dans la mesure où il existe des outils tout-en-un couvrant plusieurs composantes de la stack data.
Un outil comme Octolis par exemple gère à la fois l’ingestion des données, leur modélisation et leur « opérationnalisation », c’est-à-dire la redistribution des données du DWH aux outils de destination. Octolis joue donc à la fois le rôle d’outil EL(T), d’outil de data prep et de Reverse ETL. Nous sommes ce que l’on appelle un outil de « DataOps ».
La troisième option que nous présentons consiste donc à construire votre Stack Data Moderne à partir de deux solutions clés :
Cette option a plusieurs avantages :
C’est l’option que nous recommandions souvent dans notre vie de consultants et c’est pourquoi nous avons développé Octolis. Cette option est particulièrement recommandée pour les entreprises de mid-market (PME) qui n’ont ni les grosses équipes data nécessaires pour construire une stack data best of breed ni le budget pour confier le travail à une agence.
Si vous choisissez cette option, voici schématiquement les étapes à suivre :
Le choix de la méthode de construction de votre stack data doit être en adéquation avec la taille de votre entreprise, vos cas d’usage cibles, vos contraintes (IT, budgétaires) et les caractéristiques de l’organisation (taille de l’équipe data).
Les trois options que nous vous avons présentées ont chacune leur intérêt. Nous sommes convaincus que la troisième est celle qui convient le mieux aux entreprises mid-market : les startups dans leur première phase de croissance et les PME ayant une maturité data intermédiaire et une équipe data réduite à 1 ou 2 personnes.