CDP packagée VS CDP composée : quelle option choisir ?

Si vous envisagez de déployer une CDP dans votre entreprise, vous allez être confronté(e) à un choix. Vous avez (grosso modo*) 2 options d’architecture : la CDP packagée Vs la CDP composée.

D’un côté, la CDP packagée, tout-en-un, gérant l’ensemble de la chaîne de traitement & valorisation des données : collecte, déduplication, nettoyage, unification, segmentation/audiences, orchestration et parfois activation & BI.

De l’autre, la CDP composée qui consiste à construire sa CDP avec une combinatoire d’outils interconnectés et inter-opérables. Grosso modo, un Data Warehouse + un outil de Data Ops pour la normalisation et l’unification des données sans oublier les outils d’activation et l’outil de BI.

*Attention, cette séparation n’est pas si absolue qu’on pourrait le penser. Comme toujours, la réalité est plus nuancée. Les solutions CDP modernes, comme Octolis, cherchent le meilleur des deux mondes. On vous donne plus de détails en conclusion 🙂

Arpit Choudhury, un expert en infrastructure data, fondateur notamment d’Astorik, a publié un excellent article consacrée aux différences entre CDP packagée et CDP composée. L’article est en anglais. Parce qu’il nous a beaucoup plu et que nous voulions vous le partager, nous vous en proposons ici une traduction en français. Si vous prévoyez un projet CDP, cet article est vraiment à lire. Bonne lecture !  [Voici le lien vers l’article d’origine]

Arpit Choudhury

Martech expert & Fondateur de Databeats

Arpit Choudhury a travaillé pour de belles startups Martech comme Make ou Hightouch, avant de devenir entrepreneur. Il est aujourd’hui reconnu comme l’un des meilleurs experts sur le sujet des CDP. Arpit travaille désormais principalement sur DataBeats, une communauté et un centre de ressources pour les professionnels des technologies marketing.

Introduction

La CDP – une vraie bête de foire, n’est-ce pas ?

Je pense que c’est un peu comme l’Hydre dans la mythologie grecque – le monstre aquatique qui se voit pousser deux têtes chaque fois qu’on lui en coupe une.

Chaque tentative de tuer la CDP l’a rendue plus fort, plus de gens en parlent et de plus de en plus de fournisseurs affirment qu’ils sont en fait une CDP déguisé – la CDP est officiellement antifragile.

J’ai été personnellement fasciné par la CDP. Au cours des trois dernières années, j’ai passé une quantité ridicule de temps à écrire sur la CDP et à suivre son évolution, de packagée à composée. Si vous avez suivi les discussions sur la CDP composée par rapport à la CDP packagée, vous avez certainement entendu les deux côtés de l’argument et vous n’avez pas besoin d’un autre article d’opinion expliquant pourquoi une approche est meilleure que l’autre.

Il est temps de publier un guide impartial qui propose une décomposition complète de la CDP en ses composants, qui, comme les têtes d’Hydra, ne cessent de se multiplier.

Ce guide a pour but d’aider les gens à prendre des décisions d’achat de CDP basées sur une compréhension claire des différents composants d’un CDP, de l’objectif de chaque composant et des composants nécessaires pour trouver le chemin le plus efficace pour mettre les données au travail avant qu’elles ne deviennent périmées ou inutilisables.

Commençons par les définitions.

Les définitions de la CDP

L’essor de l’entrepôt de données a conduit à l’émergence de l’ETL inversé à la fin de l’année 2020, puis à l’idée que la combinaison de ces deux technologies a permis aux entreprises de construire – ou plus exactement d’assembler – une plateforme de données clients au-dessus de l’entrepôt de données.

C’est ainsi que l’idée d’une CDP composée est apparue début 2021 et a pris de l’ampleur en 2022. Mais qu’est-ce qu’une CDP composée ? S’agit-il d’une architecture ? Est-ce une approche ? Un ensemble d’outils intégrés ? Ou s’agit-il d’une solution produite comme une CDP packagée ?

Si vous recherchez « Composable CDP » sur Google, vous constaterez qu’aucun article n’offre une définition concise de ce terme. Changeons cela.

Qu’est-ce qu’une CDP packagée ?

Une plateforme de données clients (CDP) packagée est une solution tout-en-un produite avec des capacités de collecte et de stockage de données provenant de sources multiples, de transformation et d’unification des données, de résolution des identités, de création d’audiences et de synchronisation des données vers des destinations en aval. En outre, certaines CDP packagées offrent également des outils permettant de définir des règles de qualité des données, de mettre en œuvre des protocoles de gouvernance des données et de se conformer aux réglementations en matière de protection de la vie privée.

Il y a deux éléments clés à prendre en compte :

  1. Une CDP packagée doit stocker une copie des données qu’elle collecte afin de résoudre les identités (résolution d’ID) et de construire des profils d’utilisateurs unifiés. Cependant, la méthodologie de résolution d’identité utilisée – probabiliste ou déterministe – varie d’un fournisseur à l’autre.
  2. Un fournisseur de CDP packagé permet généralement aux entreprises de créer leurs propres packages en combinant les capacités de base et les outils complémentaires.

Qu’est-ce qu’une CDP composée ?

Une plateforme de données clients composée (CDP) est un ensemble d’outils intégrés qui sont assemblés à l’aide de logiciels libres ou propriétaires afin d’exécuter certaines ou toutes les fonctions d’une plateforme de données clients packagée.

Il y a deux éléments clés à prendre en compte :

  • Une CDP composée possède certaines ou toutes les capacités d’une CDP packagée, en fonction de la manière dont elle est composée ou assemblée.
  • Une CDP composée est assemblée à l’aide de logiciels libres, de solutions gérées de logiciels libres ou d’outils SaaS propriétaires.

Maintenant que les définitions sont connues, examinons plus en détail les différents composants d’un CDP.

Les composantes d’une CDP

L’un des principaux problèmes posés par le terme « Customer data Platform » est qu’il a été utilisé et détourné par divers fournisseurs de logiciels dans des contextes différents. De nombreux éditeurs ont même positionné une fonctionnalité de leur produit comme une CDP, simplement parce que cette fonctionnalité permet aux utilisateurs de gérer les données clients qui ont été intégrées dans ce produit.

J’aimerais énumérer quelques mises en garde avant de présenter un aperçu complet de chaque composante d’une CDP :

  • Tous les fournisseurs de CDP packagées n’offrent pas l’ensemble de ces composants.
  • Plusieurs fournisseurs de CDP établis offrent des capacités ou des composants supplémentaires.
  • Au sein de chaque composante, les fonctionnalités spécifiques peuvent varier d’un fournisseur à l’autre.
  • Vous n’avez pas nécessairement besoin de tous ces composantes pour composer une CDP.

Entrons dans le vif du sujet.

1. La collecte de données comportementales : l’infrastructure de données clients (IDC)

Une IDC est un outil spécialisé qui offre un ensemble de SDK pour collecter des données comportementales ou des données d’événements à partir de sources de données de première partie.

Votre produit principal – applications web, applications mobiles, appareils intelligents ou une combinaison des deux – alimenté par un code propriétaire est une source de données de première partie, et les données comportementales permettent de comprendre comment votre produit est utilisé et d’identifier les points de friction.

Ces données sont un prérequis pour une CDP et sans ces données, une CDP n’est pas une CDP. Les données comportementales provenant de vos sources de données de première partie servent de base à une CDP.

Il y a deux éléments clés à prendre en compte ici :

  • La capacité IDC d’une CDP packagée permet de synchroniser les données directement avec des outils tiers en aval, sans qu’il soit nécessaire de stocker une copie des données dans votre propre data warehouse.
  • Les IDC autonomes prennent en charge du Data Warehouse en tant que destination principale et, par rapport à la composante IDC des CDP packagées, les IDC autonomes (tels que Snowplow) offrent moins d’intégrations de destinations tierces.

Pour en savoir plus sur les capacités et les fournisseurs d’IDC (dont certains font partie d’offres plus larges de CDP), voici.

P.S. : Bien que j’aie été un fervent partisan du terme IDC, avec le recul, je pense que le terme « Client » devrait être remplacé par « Audience » car les données collectées ne concernent pas uniquement les clients – en fait, la collecte de données est initiée bien avant qu’un utilisateur ou une organisation ne devienne un client. Si la notion d’Audience plutôt que de Client vous parle, vous apprécierez la lecture de cet article.

cdi vs etl elt
Éléments de collecte de données d’un PDC : IDC et ELT/ETL

2. L’ingestion des données : ELT (ou ETL)

Une solution ELT/ETL autonome est conçue pour extraire tous les types de données d’un catalogue croissant de sources de données secondaires (outils tiers) et les charger dans des Cloud Data Warehouse.

Les sources de données secondaires comprennent les outils tiers avec lesquels les utilisateurs interagissent directement ou indirectement – outils utilisés pour l’authentification, les paiements, les expériences in-app, l’assistance, le retour d’information, l’engagement et la publicité.

Il y a deux éléments clés à prendre en compte ici :

  • Une CDP packagée qui offre des fonctionnalités ELT – des intégrations à la source avec des outils tiers – ingère d’abord les données dans son propre magasin de données, et peut en outre synchroniser les données avec un Data Warehouse via des intégrations de destination.
  • Les capacités d’ELT des fournisseurs de CDP packagées sont très limitées par rapport aux solutions d’ELT conçues à cet effet. Si vous avez besoin de données dans une CDP à partir d’une source qui n’est pas prise en charge de manière native par le fournisseur de CDP, vous devrez construire votre propre pipeline ou utiliser un outil d’ELT pour envoyer les données vers votre Data Warehouse, puis les synchroniser à nouveau avec la CDP à l’aide des intégrations de source proposées par les fournisseurs de CDP.

Si vous souhaitez explorer les offres des principaux fournisseurs d’ELT, voici.

3. Le stockage des données

Comme nous l’avons déjà mentionné, les fournisseurs de CDP packagées stockent une copie des données qu’ils collectent dans un magasin ou un Data Warehouse interne. Les clients peuvent en outre envoyer une copie des données à leur propre Data Warehouse ou Data Lake par le biais d’intégrations de destination.

Le Data Warehouse, comme vous le savez déjà, est le composant central d’une CDP composée – la pièce maîtresse à laquelle tous les autres composants se connectent.

Il y a deux considérations essentielles à prendre en compte ici :

  • Le Data Warehouse a toujours été utilisé pour stocker des données relationnelles provenant d’outils tiers et pour visualiser ces données à l’aide d’un outil de BI. Par conséquent, pour assembler une CDP composée, même les entreprises qui ont déjà un entrepôt en place doivent ingérer des données comportementales à partir de leurs sources de première partie à l’aide d’un IDC.
  • Une CDP packagée peut être utilisée parallèlement à un Data Warehouse. En fait, il est de plus en plus fréquent que les clients des CDP packagées stockent une copie de leurs données dans leur propre Data Warehouse en vue d’une utilisation ultérieure. En outre, les entreprises adoptent une approche hybride dans laquelle elles exploitent les capacités prêtes à l’emploi d’une CDP packagée pour certains cas d’utilisation tout en assemblant une CDP composée pour les cas d’utilisation avancés qui s’appuient sur des modèles de données personnalisés.

4. La résolution d’identité et l’API de profil

La résolution d’identité est le processus d’unification des enregistrements d’utilisateurs capturés à travers de multiples sources. Elle nécessite un ensemble d’identifiants (ID) utilisés pour faire correspondre et fusionner les enregistrements d’utilisateurs provenant de différentes sources, ce qui permet aux entreprises d’obtenir une vue d’ensemble de chaque utilisateur ou client.

La résolution d’identité a plusieurs cas d’utilisation, mais elle contribue principalement aux efforts de personnalisation et de protection de la vie privée.

schema cdp sources destinations
La résolution d’identité crée des profils unifiés qui peuvent être synchronisés en aval à l’aide de l’API de profil.

Il y a deux éléments clés à prendre en compte ici :

  • Une CDP packagée offre une capacité de résolution d’identité prête à l’emploi et crée des profils d’utilisateur unifiés. Les clients utilisant une CDP peuvent ensuite synchroniser ces profils unifiés avec un Data Warehouse ou des outils tiers à l’aide des API disponibles. Par ailleurs, comme nous l’avons déjà mentionné, un fournisseur de CDP utilise soit la méthodologie probabiliste, soit la méthodologie déterministe pour résoudre les identités.
  • Dans l’approche composée, les entreprises doivent gérer la résolution des identités dans leur propre Data Warehouse en écrivant le code d’unification à l’aide de SQL. Grâce à la flexibilité offerte par cette approche, l’analyste peut utiliser la méthodologie de résolution d’identité qui fonctionne le mieux en fonction des points de données disponibles.

5. Le Visual Audience Builder (et la modélisation des données)

Autre prérequis d’une CDP, un générateur d’audience visuelle est précisément ce qu’il semble être – une interface glisser-déposer pour construire des audiences ou des segments en combinant des données provenant de diverses sources.

Dans le cadre de l’approche composée, cette capacité est offerte par les outils ETL inversés, désormais appelés outils d’Activation des Données.

Il y a deux éléments clés à prendre en compte :

  • Une CDP packagée crée automatiquement les modèles de données sous-jacents à partir des données qu’il stocke, ce qui permet aux équipes non spécialisées dans les données de créer des audiences sans aucune dépendance. Cependant, ces modèles sont rigides et les clients ne peuvent pas créer des modèles personnalisés en fonction de leurs besoins spécifiques.
  • Un outil d’ETL inversé/d’activation des données exige que les équipes chargées des données construisent et exposent des modèles de données (à l’aide de SQL) au-dessus des données présentes dans le Data Warehouse, afin de permettre aux équipes non chargées des données de créer des audiences à l’aide du générateur d’audience visuelle. Cette approche donne aux entreprises une flexibilité totale sur leurs modèles et la possibilité d’incorporer des entités personnalisées.

P.S. : Je pense qu’il faudrait un meilleur terme pour décrire cette catégorie d’outils car l’ETL inversé n’est qu’une fonctionnalité et l’activation des données est un cas d’utilisation qui peut également être réalisé à l’aide d’une CDP packagée.

6. L’ETL inversé

Comme vous le savez déjà, l’ETL inversé fait référence au processus de déplacement des données du Data Warehouse vers des destinations en aval – généralement des outils tiers, mais il peut également s’agir d’une base de données interne.

Les entreprises construisent des pipelines ETL inversés depuis un certain temps ; cependant, l’utilisation du terme « ETL inversé » n’a commencé qu’après la productisation de l’ETL inversé au début de 2020 (j’ai entendu le terme pour la première fois en août 2020 de la part de Boris Jabes).

Nous sommes en 2023 et l’ETL inversé est désormais une fonctionnalité ou une composante de la CDP.

schema reverse etl
Qu’il s’agisse de la Data Warehouse de la CDP ou de la Data Warehouse du client, le déplacement des données vers l’aval est un ETL inversé.

Il y a deux considérations essentielles à prendre en compte ici :

  • La capacité d’une CDP packagée à déplacer des données vers des destinations en aval, souvent appelée orchestration, est essentiellement un ETL inversé où les données sont déplacées à partir de l’entrepôt de données de la CDP et non de la Data Warehouse du client. Aujourd’hui, la plupart des CDP packagées prennent également en charge la Data Warehouse du client en tant que source de données.
  • Dans l’approche composée, les entreprises qui aiment tout construire en interne peuvent créer leurs propres pipelines ou tirer parti de l’ETL inverse packagé offert par les outils d’activation de données (comme Census ou Hightouch) ainsi que par certains IDC (comme RudderStack).

7. La qualité des données

Composante sous-estimée mais importante, la qualité des données (QD) aide les entreprises à s’assurer que les données qui alimentent leurs CDP ne sont pas bizarres. Les outils de QD aident les entreprises à maintenir la validité, l’exactitude, la cohérence, la fraîcheur et l’exhaustivité des données.

La qualité des données est une catégorie très vaste qui comprend une pléthore d’outils permettant de détecter les problèmes et de maintenir la qualité de différents types de données. Cependant, les données comportementales constituent la base d’une CDP et il faut donc des outils pour s’assurer que les données sont valides, exactes et fraîches.

Il y a deux éléments clés à prendre en compte ici :

  1. Une CDP packagée offre généralement des fonctions de qualité des données permettant d’effectuer des tests sur les données comportementales collectées. Il permet également aux équipes d’élaborer des plans de suivi en collaboration.
  2. Dans l’approche composée, la composante QD peut provenir de l’outil IDC ou d’une solution QD distincte (comme Great Expectations) qui peut, au minimum, valider les données entrantes.

8. Gouvernance des données et respect de la vie privée

Un autre élément extrêmement important et pourtant sous-représenté d’une CDP est la capacité à mettre en place des contrôles de gouvernance et des flux de travail de conformité.

Il est juste de dire que c’est quelque chose dont les entreprises ont besoin de toute façon, qu’elles utilisent une CDP ou non. Cependant, si une entreprise utilise une CDP – qu’elle soit packagée ou composée – elle doit s’assurer de certaines choses, telles que :

  • La collecte des données n’est lancée qu’après que l’utilisateur a consenti à ce que les données soient collectées à des fins spécifiques telles que le marketing ou l’analyse.
  • Seules les données nécessaires à un outil tiers sont envoyées à cette destination spécifique. Par exemple, les IIP telles que l’adresse électronique ne sont envoyées à un outil tiers qu’après que l’utilisateur final a explicitement consenti à recevoir des courriels envoyés à l’aide de cet outil tiers.
  • Si un utilisateur refuse la collecte de données, aucune autre donnée le concernant ne doit être collectée auprès de sources de première et de tierce parties.
  • Si un utilisateur souhaite être oublié (GDPR) ou refuser que ses données soient vendues (CCPA), les demandes d’effacement doivent être envoyées aux outils tiers en aval desquels ses données ont été envoyées plus tôt.
  • Les membres de l’équipe interne ne doivent pouvoir accéder aux données sensibles ou aux IIP que s’il est nécessaire qu’ils accèdent à ces données, avec des autorisations granulaires basées sur les rôles.

Il ne s’agit là que de quelques-unes des capacités clés de la composante de gouvernance et de conformité d’une CDP et, comme vous pouvez le constater, il n’est pas facile de créer cette composante en interne.

Il y a deux éléments clés à prendre en compte ici :

  • Les capacités de gouvernance et de conformité des CDP packagées varient considérablement et seuls les principaux fournisseurs de CDP proposent des kits d’outils complets.
  • Dans le cadre de l’approche composée, il est possible d’exploiter certaines de ces fonctionnalités offertes par certains fournisseurs d’IDC ou d’intégrer des outils autonomes spécialement conçus pour la gouvernance et la conformité.

Conclusion (Octolis)

Nous espérons que cet article vous a aussi intéressé(e) que nous et que vous comprenez bien maintenant la différence entre les deux approches – même si, comme nous le disions en introduction, il faut nuancer un peu les choses. C’est la seule réserve que nous aurions vis-à-vis de l’article de Arpit Choudhury qui, par ailleurs, nous a vraiment stimulés !

En effet, ce que l’on observe depuis 2022, c’est la réduction du fossé entre les 2 approches. Les CDP modernes réunissent le meilleur des deux mondes.

Octolis, une CDP packagée ou une CDP composée ? Le meilleur des deux mondes !

La plateforme que nous proposons, Octolis, fonctionne en surcouche d’un Data Warehouse indépendant. Le but ? Que le client reste maître de sa base de données. Data Warehouse + Octolis = CDP 2.0. Mais nous intégrons dans le même temps toutes les fonctions de traitement des données associées classiquement aux CDP packagée. Octolis est donc à la fois (composante d’une) CDP composée et CDP packagée (tout-en-un). Si vous êtes curieux d’en savoir plus sur notre vision de la CDP, sur Octolis, sur les architectures data modernes, n’hésitez pas à entrer en contact avec nous !