L’essentiel à savoir sur la déduplication des données clients

Toute entreprise souhaitant devenir plus mature en matière d’exploitation des données clients rencontre tôt ou tard le sujet épineux de la déduplication des données.

L’unification et la déduplication des données clients sont la condition nécessaire pour pleinement exploiter vos données clients, que ce soit pour l’activation omnicanale de vos parcours clients ou pour le reporting/BI.

Pour faire simple, la déduplication des données est une problématique qui se pose dès lors que vous souhaitez unifier les données en provenance de différentes sources dans une plateforme unique (de type Customer Data Platform, par exemple).

Le sujet est complexe, mais de plus en plus à l’ordre du jour dans les entreprises en raison de la multiplication des canaux, des points de contact et des outils qui engendre naturellement une dissémination des données et des duplications.

On va vous présenter dans ce guide les principaux enjeux autour de la déduplication des données et les principales méthodes de déduplication.

L’essentiel à retenir sur la déduplication des données clients

  • La déduplication des données clients est une étape essentielle pour unifier les informations provenant de différentes sources et créer une vue client 360 complète et cohérente.
  • Les données dupliquées peuvent entraîner des incohérences, des erreurs d’analyse, des coûts supplémentaires, une perte de confiance des clients, des problèmes de conformité et une perte d’opportunités commerciales.
  • La normalisation et le nettoyage des données sont des étapes préalables indispensables avant la déduplication pour garantir des données cohérentes et fiables.
  • Le graph d’identités est une table visuelle qui permet de visualiser tous les identifiants utilisés par les clients et les données associées à ces identifiants.
  • Il existe deux approches pour dédupliquer les données : le matching déterministe, basé sur des règles précises, et le matching probabiliste, utilisant des méthodes statistiques pour détecter des correspondances potentielles.

Pour commencer, qu’est-ce que la déduplication des données ?

Définition simple de la déduplication des données

La déduplication des données clients est le processus de fusion des informations clients provenant de différentes sources pour créer une vue client 360 unifiée. Elle vise à résoudre les problèmes de doublons et d’incohérences causés par la dissémination des données dans plusieurs outils, l’utilisation d’identifiants clients différents, les erreurs humaines de saisie et les problèmes de synchronisation entre les systèmes.

L’objectif est d’agréger toutes les données au même endroit, dans une base de référence, pour obtenir une vision complète et précise du client, essentielle pour des décisions stratégiques et des actions marketing ciblées.

Déduplication vs Dédoublonnage des données

Le dédoublonnage et la déduplication des données sont deux concepts qu’il est important de bien distinguer :

  • Le dédoublonnage concerne la suppression ou la fusion des doublons présents à plusieurs endroits au sein d’une même base de données. En d’autres termes, il s’agit de traiter les enregistrements en double qui peuvent résulter d’erreurs de saisie, de duplications accidentelles ou de mises à jour mal synchronisées. L’objectif du dédoublonnage est d’éliminer les redondances pour garantir que chaque enregistrement dans la base de données est unique, ce qui permet d’améliorer la qualité et l’exactitude des données.
  • En revanche, la déduplication des données clients fait référence à un problème plus complexe. Elle se produit lorsque les données clients sont réparties dans plusieurs outils ou bases de données différentes, ce qui entraîne la dissémination des informations clients. Dans ce cas, le défi consiste à rassembler ces données dispersées en un seul endroit, généralement dans un référentiel central ou une base de données globale, afin de créer une vue client 360 unifiée. L’objectif de la déduplication des données clients est donc d’agréger toutes les données éparses pour obtenir une vision complète, holistique et cohérente des clients, en éliminant les silos de données et en consolidant les informations issues de diverses sources.

En résumé, le dédoublonnage concerne la gestion des doublons au sein d’une même base de données, tandis que la déduplication des données clients concerne la consolidation des informations clients disséminées dans plusieurs outils ou bases de données différentes pour créer une vue globale et unifiée des clients.

L’enjeu derrière la déduplication des données : l’unification de données multi-sources

L’enjeu majeur derrière la déduplication des données réside dans la nécessité de faire face à la croissance exponentielle des outils et technologies utilisés par les entreprises, en particulier dans le domaine du marketing et de la relation client (MarTech). Avec la multiplication des canaux et des points de contact clients, les entreprises sont confrontées à un afflux massif de données clients provenant de sources diverses.

Au cœur de cette problématique se trouve l’unification des données clients, qui est devenue le principal défi depuis plusieurs années. L’objectif est de rassembler toutes ces données éparpillées dans une base de données centrale ou un référentiel client, pour créer une vue client 360 complète et cohérente. Cette vue unifiée permet aux entreprises de mieux comprendre leurs clients, d’identifier leurs besoins et leurs préférences, et d’offrir des expériences personnalisées et pertinentes.

La déduplication des données joue un rôle crucial dans ce processus d’unification. Elle consiste à identifier et à éliminer les doublons d’informations clients qui peuvent exister dans les différentes sources de données. En effet, lorsque les données clients proviennent de multiples canaux et outils, il y a souvent des risques de redondance et d’incohérence dans les enregistrements.

Cependant, il est essentiel de noter que la déduplication n’est qu’une étape parmi d’autres dans le processus d’unification des données. L’unification va au-delà de la simple suppression des doublons, car elle implique également la normalisation, la consolidation et la synchronisation des informations clients provenant de diverses sources.

Ainsi, l’enjeu majeur derrière la déduplication des données réside dans la création d’une vue client complète, permettant aux entreprises de mieux exploiter leurs données, de mieux comprendre leurs clients, et ce afin de prendre des décisions stratégiques plus éclairées et d’offrir des expériences clients plus personnalisées et satisfaisantes.

Quelques cas d’usage concrets de la déduplication des données

La déduplication des données joue un rôle essentiel dans de nombreux cas d’usage concrets, permettant aux entreprises d’améliorer leurs opérations et d’optimiser leur relation client. Voici quelques exemples pratiques :

  1. Amélioration de la qualité des données clients : La déduplication aide à éliminer les doublons et les incohérences dans les informations clients, garantissant ainsi que chaque enregistrement est précis et à jour. Cela contribue à améliorer la qualité globale de vos données, ce qui est essentiel pour des prises de décision fiables et des actions marketing ciblées.
  2. Unification des profils clients : En consolidant les données clients provenant de diverses sources, la déduplication permet de créer une vue client 360 complète et cohérente. Cela permet aux équipes marketing et aux équipes de service client de disposer d’une image précise et unifiée de chaque client, favorisant ainsi une meilleure compréhension de leurs besoins et de leurs préférences.
  3. Optimisation de l’expérience client : Grâce à cette connaissance approfondie des clients, les entreprises peuvent offrir des expériences clients plus personnalisées et pertinentes. La déduplication des données permet de mieux cibler les clients avec des offres et des communications adaptées, améliorant ainsi la satisfaction et la fidélité des clients.
  4. Réduction des coûts opérationnels : En éliminant les doublons de données clients, les entreprises évitent les inefficiences et les redondances dans leurs opérations. Cela peut entraîner des économies de temps et de ressources, en simplifiant les processus et en améliorant l’efficacité générale de l’entreprise.
  5. Prise de décision éclairée : Une déduplication réussie permet d’obtenir des données fiables et cohérentes, ce qui est essentiel pour prendre des décisions stratégiques éclairées. Les dirigeants peuvent compter sur des informations précises pour établir des objectifs, identifier les opportunités de croissance et anticiper les tendances du marché.
  6. Conformité et sécurité des données : La déduplication contribue à garantir que les informations clients sont correctes et à jour, ce qui est crucial pour respecter les réglementations de protection des données telles que le RGPD. En évitant les doublons, les entreprises minimisent également les risques liés à la sécurité des données.
  7. Amélioration de l’efficacité des campagnes marketing : En éliminant les doublons, les entreprises peuvent mieux segmenter leur base de clients et cibler les audiences appropriées. Cela permet d’optimiser les campagnes marketing en évitant de solliciter plusieurs fois les mêmes clients, améliorant ainsi le retour sur investissement de votre dispositif data.

Les risques associés aux données dupliquées

Les données dupliquées peuvent entraîner de nombreux risques pour les entreprises, notamment :

  • Incohérence des données : Divergence entre les enregistrements dans différents systèmes, rendant difficile la compréhension des informations clients.
  • Erreurs dans l’analyse des données : Comptage multiple de clients dupliqués dans les rapports, faussant ainsi les résultats et pouvant conduire à des décisions commerciales erronées.
  • Coûts supplémentaires : Stockage et gestion de données en double, entraînant des coûts inutiles pour l’entreprise.
  • Perte de confiance des clients : Erreurs dans les communications avec les clients, entraînant de la frustration et une perte de confiance envers l’entreprise.
  • Problèmes de conformité : Risque de non-conformité avec les réglementations de protection des données, exposant l’entreprise à des sanctions légales et des amendes.
  • Perte d’opportunités commerciales : Difficulté à obtenir une vue complète des clients, entraînant une perte d’opportunités commerciales et une baisse de compétitivité sur le marché.

La méthode pour dédupliquer vos données clients

Les préalables à la déduplication des données : normalisation & nettoyage

Avant de se lancer dans le processus de déduplication des données, deux étapes essentielles sont à prendre en compte : la normalisation et le nettoyage des données.

  • Normalisation des données : La normalisation consiste à uniformiser les données en les formatant de manière cohérente et standardisée. Cela implique de convertir les informations dans un format commun, tel que les codes postaux, les numéros de téléphone ou les dates, afin de faciliter la comparaison et l’identification des doublons. La normalisation garantit que les données sont cohérentes et comparables, créant ainsi une base solide pour le processus de déduplication.
  • Nettoyage des données : Le nettoyage des données est une étape cruciale pour éliminer les erreurs, les incohérences et les valeurs manquantes dans les enregistrements. Cela peut inclure la correction des fautes de frappe, la suppression des caractères spéciaux, la remplissage des valeurs manquantes ou la mise à jour des informations obsolètes. Le nettoyage des données garantit que les enregistrements sont fiables et précis, ce qui est essentiel pour éviter des doublons involontaires et pour obtenir des résultats de déduplication précis.

En résumé, la normalisation et le nettoyage des données sont des préalables indispensables avant de se lancer dans la déduplication. Ces étapes permettent de s’assurer que les données sont cohérentes, comparables et exemptes d’erreurs, créant ainsi un terrain propice à une déduplication réussie et efficace.

La création du graph d’identités (Identity Graphs)

Le graph d’identités est une table visuelle qui regroupe les identifiants utilisés sur les points de contact et par les outils de l’entreprise, offrant une vue globale des clients et des données associées à ces identifiants. Certains logiciels offrent des représentations visuelles pour faciliter la compréhension des interrelations complexes entre les différents points de contact.

Les éléments du graph d’identités comprennent :

  • Email
  • Cookie ID
  • Numéro client
  • Nom Prénom
  • Téléphone
  • Autres identifiants utilisés par l’entreprise

Il permet de visualiser les types de données rattachés à chaque identifiant, tels que les données démographiques, les préférences, les historiques d’achats, etc. L’objectif est d’obtenir une vue complète et unifiée des clients pour améliorer les expériences personnalisées, la satisfaction client et les décisions stratégiques basées sur des données précises.

Le choix des clés de déduplication

Les clés de déduplication sont les identifiants sélectionnés pour unifier les enregistrements similaires et éliminer les doublons dans le graph d’identités. Il est recommandé d’utiliser des clés d’unification qui sont spécifiques, persistantes et uniques pour chaque client. Les clés d’unification servent à identifier de manière fiable et précise les clients, garantissant ainsi que les enregistrements pertinents sont regroupés ensemble.

En univers Retail / Ecommerce, deux clés fréquemment utilisées pour la déduplication sont :

  • Email : L’email est l’un des identifiants les plus répandus dans le commerce électronique. Il est souvent unique pour chaque client et offre une méthode fiable pour unifier les données clients.
  • Nom + prénom + adresse : Cette combinaison de données démographiques est également largement utilisée pour identifier les clients de manière précise. En utilisant le nom, le prénom et l’adresse, les entreprises peuvent regrouper les enregistrements associés à un même individu, même si les autres identifiants sont différents.

Il est important de noter que différentes entreprises peuvent avoir des besoins spécifiques en matière de clés de déduplication en fonction de leurs données et de leur secteur d’activité. Par conséquent, il est possible d’utiliser des règles en cascade avec une priorisation pour la déduplication.

Les règles en cascade permettent de hiérarchiser l’utilisation des différentes clés de déduplication dans le processus de déduplication. Par exemple, on peut commencer par utiliser l’email comme clé principale, puis en cas d’absence d’email, utiliser la combinaison du nom, du prénom et de l’adresse comme clé de secours.

Matching déterministe Vs matching probabiliste

Le processus de déduplication des données peut être réalisé à l’aide de deux approches distinctes : le matching déterministe et le matching probabiliste. Ces approches peuvent être utilisées de manière complémentaire pour obtenir des résultats plus précis.

  • Matching déterministe : Le matching déterministe repose sur des règles de correspondance claires et précises pour identifier les doublons. Cela signifie que les enregistrements sont comparés en utilisant des clés d’identifications spécifiques et uniques, telles que l’email, le numéro de téléphone ou le numéro de client. Si deux enregistrements ont la même clé d’identification, ils sont considérés comme des doublons et sont fusionnés pour former un seul enregistrement. Le matching déterministe garantit une déduplication précise, car les correspondances sont basées sur des critères stricts.
  • Matching probabiliste : Le matching probabiliste, en revanche, utilise des méthodes statistiques et algorithmiques pour évaluer la similarité entre les enregistrements. Plutôt que de se baser sur des clés d’identification uniques, le matching probabiliste examine les similitudes entre les enregistrements en utilisant des techniques telles que le calcul de la similarité de chaînes de caractères ou le calcul de la distance entre les valeurs. Cela permet d’identifier des correspondances potentielles même lorsque les clés d’identification ne sont pas exactement les mêmes. Le matching probabiliste est plus flexible, mais peut entraîner un risque plus élevé de fausses correspondances.

Ces deux approches peuvent être utilisées de manière complémentaire pour obtenir des résultats plus robustes. Par exemple, le matching déterministe peut être utilisé en priorité pour les enregistrements avec des clés d’identification claires et uniques, tandis que le matching probabiliste peut être utilisé pour détecter des correspondances potentielles lorsque les clés d’identification sont manquantes ou inexactes.

Dans le cadre de l’identity resolution, qui vise à créer une vue client unifiée, le choix entre le matching déterministe et le matching probabiliste dépend des besoins spécifiques de l’entreprise et de la qualité des données disponibles. Une combinaison judicieuse de ces deux approches peut permettre une déduplication précise et complète, conduisant à une meilleure compréhension des clients et à des actions marketing plus efficaces.

Les outils pour dédupliquer vos données clients

Pour dédupliquer les données clients, plusieurs solutions et types d’outils sont disponibles, chacun offrant des fonctionnalités spécifiques adaptées aux besoins des entreprises.

  • Data Warehouses avec SQL : Certains Data Warehouses utilisent des requêtes SQL pour effectuer la déduplication des données. En combinant le pouvoir du SQL avec des outils additionnels tels que Zingg et Truelty, ces plateformes permettent aux entreprises de gérer efficacement leurs données clients et de supprimer les doublons.
  • Customer Data Platforms (CDP) : Les CDP offrent une approche globale de l’unification des données clients, incluant généralement des fonctionnalités de déduplication. Cependant, leur personnalisation peut parfois être assez limitée en termes de règles de déduplication, ce qui peut ne pas convenir à toutes les entreprises ayant des besoins spécifiques.
  • Outils de préparation des données et de qualité des données spécialisés : Il existe également des outils dédiés à la préparation des données et à l’amélioration de leur qualité. Ces outils sont conçus spécifiquement pour gérer les problématiques de déduplication, de nettoyage et de normalisation des données, offrant une approche plus personnalisable et flexible pour répondre aux besoins spécifiques de chaque entreprise.

Chaque type d’outil a ses avantages et ses inconvénients, et le choix dépendra des besoins, de la taille et des ressources de l’entreprise. Les Data Warehouses avec SQL peuvent être une option solide pour les entreprises ayant déjà des infrastructures de données en place et des compétences en SQL. Les CDP sur l’étagère peuvent être une solution rapide et simple pour les entreprises cherchant une approche globale, tandis que les outils de préparation et de qualité des données spécialisés offrent une personnalisation plus poussée et une meilleure adaptabilité aux besoins spécifiques.

Conclusion

En résumé, la déduplication des données et l’identity resolution sont des processus cruciaux pour obtenir une vue client complète et exploiter efficacement les informations clients. Les entreprises doivent s’appuyer sur des outils adaptés, des clés d’unification appropriées et une approche équilibrée entre le matching déterministe et probabiliste pour assurer la fiabilité, la précision et la cohérence de leurs données clients.

Le guide complet pour réussir la migration de votre CRM

Les migrations CRM sont souvent retardées, et certaines sont des échecs. Pour une raison simple : les entreprises pour la plupart n’anticipent pas assez la difficulté de ce type de projet. La migration CRM ne se réduit pas à un simple import/export de données de l’ancien CRM vers le nouveau, car chaque CRM a un modèle de données qui lui est propre.

Surtout, la migration CRM ne doit pas être envisagée comme un simple projet techno. Un projet de migration CRM doit être l’occasion de repenser votre stratégie, d’identifier les nouveaux cas d’usage que vous voulez déployer avec votre future plateforme, de rationaliser votre SI client, de moderniser votre architecture IT. La migration CRM doit découler d’une vision stratégique.

Dans ce guide pratique, nous allons passer en revue les différentes étapes à suivre pour mener à bien votre projet de migration CRM. Le contenu des étapes peut évidemment varier, mais les grands jalons sont globalement assez standardisés.

L’essentiel à retenir sur la migration CRM

L’essentiel à retenir pour réussir la migration de votre CRM :

  • Définissez clairement les raisons et objectifs de la migration, en identifiant les lacunes de votre CRM actuel et les améliorations souhaitées.
  • Constituez une équipe projet compétente avec des rôles bien définis pour assurer une coordination efficace.
  • Effectuez un état des lieux de votre organisation CRM actuelle, en cartographiant les cas d’usage et les flux de données pour comprendre vos besoins et défis.
  • Choisissez une nouvelle solution CRM en tenant compte de vos cas d’usage cibles et de l’architecture CRM souhaitée, en envisageant des solutions complémentaires si nécessaire.
  • Préparez la migration en nettoyant vos données, en supprimant les doublons et les informations obsolètes, et configurez le nouveau CRM en adaptant le modèle de données.
  • Formez convenablement les utilisateurs au nouveau CRM pour faciliter une adoption réussie et maximiser les avantages de la nouvelle solution.

En suivant ces points clés, vous augmenterez vos chances de mener à bien la migration de votre CRM et de bénéficier d’un système adapté à vos besoins métier.

#1 Cadrer le projet – Définir les raisons & objectifs de la migration CRM

Avant de se lancer dans une migration CRM, il est essentiel de cadrer le projet en définissant clairement les raisons et les objectifs qui motivent ce changement. Comme pour tout projet, une qualification précise des raisons de la migration est nécessaire pour orienter les efforts et garantir sa réussite. Voici quelques raisons courantes qui peuvent justifier une migration CRM :

  1. Le CRM actuel n’offre pas les fonctionnalités souhaitées : Il se peut que votre système CRM actuel ne réponde pas aux besoins spécifiques de votre entreprise. Vous pourriez avoir identifié des fonctionnalités manquantes qui sont essentielles pour améliorer vos processus de vente, votre suivi des clients ou votre gestion des campagnes marketing.
  2. Le modèle de données du CRM est inadapté : Chaque entreprise a des besoins uniques en matière de gestion de la relation client. Si le modèle de données de votre CRM actuel ne correspond pas à votre structure organisationnelle ou à vos flux de travail spécifiques, il peut être difficile d’exploiter pleinement son potentiel. Une migration vers un nouveau CRM permettrait alors d’adopter un modèle de données plus adapté à vos besoins.
  3. Le CRM actuel n’est plus dimensionné à votre taille/activité : Votre entreprise peut avoir connu une croissance significative depuis la mise en place de votre CRM actuel. Si celui-ci n’est plus dimensionné pour gérer efficacement votre volume croissant de données et d’activités, une migration vers une solution plus évolutive et puissante peut être nécessaire.

 

Il est important de prendre le temps de formuler précisément les défis et les problèmes rencontrés avec le CRM actuel. Cela permet de mieux comprendre les lacunes du système et d’identifier les améliorations souhaitées. Par exemple, vous pourriez constater que votre CRM actuel ne dispose pas de fonctionnalités suffisamment robustes pour suivre efficacement vos prospects tout au long du cycle de vente. Dans ce cas, l’objectif de la migration pourrait être d’améliorer le suivi des prospects et d’optimiser le processus de vente global.

En définissant clairement les raisons et les objectifs de la migration CRM, vous pourrez orienter efficacement les étapes suivantes du projet et maximiser les avantages de votre nouveau système CRM.

#2 Construire une équipe projet

La constitution d’une équipe projet compétente est essentielle pour mener à bien la migration de votre CRM. Voici les différents acteurs qui devraient idéalement faire partie de votre équipe projet :

  1. Chef de projet : Le chef de projet est chargé de la planification, de la coordination des différentes étapes ainsi que de la gestion des ressources. Il peut être issu de l’organisation interne ou être un consultant externe spécialisé dans les migrations CRM.
  2. Sponsor : Le sponsor est un membre de la direction ou une personne ayant le pouvoir de prendre des décisions stratégiques. Il soutient le projet, en assure le financement et s’assure que les objectifs de la migration CRM sont alignés sur les objectifs de l’entreprise. Le sponsor joue un rôle crucial pour obtenir l’engagement et les ressources nécessaires.
  3. Équipe IT/Data : Cette équipe est responsable de la gestion technique du projet de migration CRM. Ils doivent s’assurer que l’infrastructure technique est en place, gérer les aspects de sécurité des données, coordonner les intégrations avec d’autres systèmes et garantir la disponibilité du nouveau CRM.
  4. Utilisateurs du CRM : Il est important d’inclure des représentants des différentes équipes qui utiliseront le CRM au quotidien, tels que les équipes commerciales, marketing et service client. Leurs retours d’expérience et leurs besoins spécifiques sont essentiels pour garantir que le nouveau système répondra aux exigences opérationnelles de l’entreprise.
  5. Consultant CRM (facultatif) : Si nécessaire, l’ajout d’un consultant CRM externe peut être bénéfique pour apporter une expertise supplémentaire, fournir des conseils sur les meilleures pratiques, les fonctionnalités à prendre en compte, et aider à la configuration et à la personnalisation du nouveau CRM.

 

Pour construire une équipe projet efficace, voici quelques conseils pratiques :

  • Attribution des rôles : Chaque personne de l’équipe projet devrait se voir attribuer un ou plusieurs rôles clairement définis. Une matrice RACI peut être utilisée pour spécifier les responsabilités de chaque membre de l’équipe projet.
migration crm matrice raci
Exemple de matrice RACI. Source : Cartelis
  • Organiser le travail en équipe : Utilisez un outil de gestion de projet pour faciliter la collaboration et le suivi des tâches. Il est également recommandé d’organiser des instances de pilotage régulières, telles que des réunions hebdomadaires ou des comités de pilotage (COPIL), pour faire le point sur l’avancement du projet, discuter des problèmes éventuels et prendre des décisions.
  • Communication et collaboration : Assurez-vous d’établir une communication claire et ouverte au sein de l’équipe projet. Une communication transparente favorisera la coordination, l’alignement des objectifs et la résolution rapide des problèmes.
  • Formation et support : Assurez-vous aussi que les membres de l’équipe projet disposent des compétences et des connaissances nécessaires pour réussir leur mission. Organisez des séances de formation adaptées aux besoins de chaque membre de l’équipe, en mettant l’accent sur la familiarisation avec le nouveau CRM, ses fonctionnalités et ses processus. Prévoyez par ailleurs un support continu tout au long du projet, que ce soit sous la forme d’un point de contact dédié ou d’un système d’assistance pour répondre aux questions et résoudre les problèmes rencontrés par l’équipe.

En suivant ces conseils supplémentaires, vous créerez un environnement propice à la collaboration, à l’efficacité et à la réussite de votre équipe projet lors de la migration de votre CRM.

#3 Faire un état des lieux de l’organisation CRM actuelle

Pour réussir votre projet de migration CRM, il est essentiel de commencer par faire un état des lieux de l’organisation CRM actuelle. Cette étape permet de comprendre en détail comment le CRM est actuellement utilisé dans l’entreprise, quels sont les cas d’usage existants et quels sont les flux de données en place. Voici les deux volets clés à explorer dans cette partie :

Cartographier les cas d’usage actuels (volet métier)

Pour avoir une vision claire de l’utilisation actuelle du CRM, il est important de réaliser un audit des processus internes et de définir les cas d’usage actuels. Vous pouvez organiser des ateliers avec les utilisateurs du CRM pour recueillir leurs retours, comprendre les défis rencontrés, les besoins spécifiques et les axes d’amélioration.

Construisez une grille des cas d’usage actuels en documentant pour chaque cas, son objectif ainsi que les fonctionnalités CRM utilisées et les points critiques identifiés. Impliquer les utilisateurs finaux du CRM dans cette étape est essentiel pour garantir leur adhésion au projet et éviter de modifier le CRM à leur insu.

Vous pouvez vous référer à l’article suivant pour obtenir des conseils supplémentaires sur la cartographie des cas d’usage actuels d’un CRM.

Cartographier les flux de données (volet technique)

Comprendre l’architecture CRM actuelle est essentiel afin de réaliser au mieux votre migration. Il est nécessaire d’analyser les différents systèmes de données, y compris les sources, les outils et les bases de données qui alimentent le CRM. Identifiez les flux de données entre ces systèmes, en mettant particulièrement l’accent sur les flux entre le CRM et les sources de données qui le nourrissent. Cette cartographie vous permettra de visualiser les interactions existantes et de comprendre comment les données circulent dans l’organisation.

En effectuant une analyse approfondie des cas d’usage actuels et des flux de données, vous serez en mesure de mieux comprendre l’état actuel de votre organisation CRM. Cette connaissance approfondie servira de base solide pour la planification et la conception de votre nouveau CRM, en vous assurant de répondre aux besoins métier tout en garantissant une intégration harmonieuse des flux de données.

#4 Choisir la nouvelle solution CRM

Définir les cas d’usage cibles

Pour choisir la meilleure solution CRM possible, il est essentiel de définir les cas d’usage cibles. Voici les étapes clés :

  1. Analysez les cas d’usage actuels et identifiez les améliorations nécessaires.
  2. Impliquez les parties prenantes pour recueillir leurs besoins spécifiques.
  3. Priorisez les cas d’usage en fonction de leur importance stratégique.
  4. Identifiez les nouvelles fonctionnalités à intégrer.
  5. Documentez les cas d’usage cibles avec leurs objectifs et exigences.

 

La définition claire des cas d’usage cibles vous aidera à choisir une solution CRM qui répondra aux besoins de votre entreprise, tout en tenant compte des coûts associés.

Traduire les cas d’usage cibles en fonctionnalités cibles

Pour aligner les cas d’usage cibles avec la nouvelle solution CRM, suivez ces étapes :

  1. Analyse détaillée : Comprenez les exigences spécifiques de chaque cas d’usage cible.
  2. Correspondance des fonctionnalités : Associez les fonctionnalités de la nouvelle solution CRM aux cas d’usage cibles.
  3. Hiérarchisation : Classez les fonctionnalités cibles par ordre d’importance.
  4. Documentation : Documentez clairement les caractéristiques et les bénéfices des fonctionnalités cibles.
  5. Validation : Obtenez les retours des parties prenantes pour valider les fonctionnalités proposées.

 

grille fonctionnalites crm
Grille des fonctionnalités CRM cibles (construites après la grille des cas d’usage et sur sa base). Source : Cartelis

En traduisant les cas d’usage cibles en fonctionnalités spécifiques, vous pourrez choisir la solution CRM qui répondra le mieux à vos besoins opérationnels et vous aidera à atteindre vos objectifs métier.

Définir l’architecture CRM cible

Lors d’une migration, il est crucial de ne pas se limiter au simple changement de logiciel, mais également de prendre en compte la réorganisation de l’architecture CRM, qui englobe l’ensemble des outils et systèmes utilisés pour gérer le CRM. Voici quelques points importants à considérer :

  1. Choix de l’architecture : Déterminez si vous optez pour un gros CRM tout-en-un ou une combinaison d’une base de données client indépendante et d’un logiciel CRM plus léger. Il existe différentes configurations possibles, donc il est essentiel de trouver celle qui correspond le mieux à vos besoins et à votre infrastructure existante.
  2. Exploitation des données en ligne : l’importance croissante de l’exploitation des données online telles que celles provenant des réseaux sociaux sont mal gérées par la plupart des CRM standards. La migration CRM peut être l’occasion de repenser votre architecture IT pour mieux exploiter ces données. Une option recommandée est de combiner une solution d’unification/préparation des données, telle qu’une Customer Data Platform (CDP), avec un logiciel CRM.
  3. Réflexion stratégique : Profitez de la migration CRM pour prendre du recul et réfléchir à l’architecture optimale qui répondra à vos besoins spécifiques. Vous pouvez envisager des développements sur l’architecture de données, en mettant l’accent sur la collecte, la gestion et l’utilisation des informations clients de manière efficace et sécurisée.
architecture crm evolution
Evolution de l’architecture des systèmes d’information client au fil du temps. De l’approche CRM monolithique à l’approche Data Warehouse centric.

En définissant une architecture CRM cible adaptée, vous pourrez maximiser l’exploitation des données clients, améliorer votre marketing relationnel et tirer le meilleur parti de votre solution CRM dans le cadre de la migration.

Pré-sélectionner les logiciels CRM éligibles

Pour choisir la meilleure solution CRM lors de votre migration, vous devez suivre une approche méthodique. Tout d’abord, identifiez les fonctionnalités et les exigences qui sont cruciales pour votre activité. Ensuite, menez une évaluation approfondie des différentes options de solutions CRM disponibles sur le marché.

Prenez en compte des critères tels que l’adéquation avec vos besoins, la convivialité, les performances et la réputation du fournisseur. N’hésitez pas à demander des démonstrations et des tests pour mieux comprendre comment chaque solution CRM répondra à vos besoins opérationnels.

Parallèlement à l’évaluation des solutions, évaluez également les aspects financiers. Considérez les coûts liés à l’acquisition de la solution CRM, tels que les licences, la formation et le support technique. Assurez-vous que ces coûts sont compatibles avec votre budget et qu’ils offrent un bon retour sur investissement.

Sélectionner la nouvelle solution CRM

Une fois un certain nombre de solutions présélectionnées, prenez en compte les retours d’expérience d’autres utilisateurs. Consultez les avis et les témoignages pour avoir une idée plus concrète de la performance et de la satisfaction des utilisateurs actuels de chaque solution CRM.

grille comparaison crm
Grille de comparaison des CRM. Source : Cartelis

En suivant cette approche réfléchie, vous serez en mesure de sélectionner la nouvelle solution CRM qui répondra le mieux aux besoins de votre entreprise et qui facilitera une migration réussie vers un système CRM plus performant.

#5 Préparer la migration de votre ancien CRM à votre nouveau CRM

La préparation de la migration de votre ancien CRM vers le nouveau système CRM implique plusieurs étapes clés :

Premièrement, vous devez préparer les données. Cela inclut le nettoyage des données de votre CRM actuel en supprimant les doublons et les informations obsolètes. L’objectif est d’importer des données propres et de qualité dans le nouveau système CRM. Profitez-en également pour faire le tri et supprimer les données inutiles ou non utilisées, de faire véritable un « ménage de printemps » dans vos données.

Il est important de noter que plus le modèle de données diffère entre l’ancien et le nouveau CRM, plus vous devrez effectuer des travaux de retraitement et de préparation des données.

Ensuite, vous devez configurer le nouveau CRM. Cette étape implique les paramétrages et la personnalisation ou l’adaptation du modèle de données, dans la mesure du possible. Il est essentiel de comprendre la rigidité des modèles de données CRM et de considérer la possibilité de découpler la base de données (BDD), ce qui permettrait une plus grande flexibilité.

En suivant ces étapes de préparation, vous serez en mesure de migrer vos données de manière efficace et de configurer votre nouveau CRM selon vos besoins spécifiques.

#6 Effectuer la migration CRM

La migration CRM est une étape critique qui nécessite une expertise technique. Il est fortement recommandé de faire appel à un intégrateur spécialisé dans le nouveau CRM pour minimiser les risques d’échec. Cette étape comprend plusieurs chantiers importants.

Tout d’abord, il faut mettre en place les flux de données de manière progressive pour assurer une transition fluide. Ensuite, l’import des données dans le nouveau CRM est essentiel. Cela implique d’effectuer des opérations de correspondance (matching) des données entre les systèmes.

La phase de tests est également cruciale. Par exemple, pour les flux de données, il est recommandé de commencer par connecter une première source de données pour vérifier son bon fonctionnement. Il est essentiel d’identifier les sources de données qui seront utilisées pour tester le nouveau système et de procéder à des tests rigoureux à chaque étape.

En résumé, la migration CRM doit être réalisée avec soin et précision, en s’appuyant sur l’expertise d’un intégrateur spécialisé. La mise en place progressive des flux de données, l’import des données et les tests rigoureux sont des éléments clés de cette étape.

#7 Former les utilisateurs au nouveau CRM

La formation des utilisateurs est une étape essentielle pour assurer une adoption réussie du nouveau CRM. Voici quelques points importants à prendre en compte :

  1. Identifier les besoins de formation : Commencez par évaluer les besoins spécifiques de chaque utilisateur en termes de compétences et de connaissances nécessaires pour utiliser efficacement le nouveau CRM. Certaines équipes, telles que les équipes de vente, de marketing ou de service client, peuvent avoir des besoins différents en fonction des fonctionnalités qu’elles utiliseront le plus.
  2. Concevoir un programme de formation adapté : Sur la base des besoins identifiés, élaborez un programme de formation structuré et adapté à chaque groupe d’utilisateurs. Cela peut inclure des sessions de formation en classe, des tutoriels en ligne, des vidéos explicatives ou des guides d’utilisation.
  3. Privilégier une approche pratique : Lors de la formation, mettez l’accent sur des exercices pratiques et des exemples concrets pour permettre aux utilisateurs de se familiariser avec les fonctionnalités clés du nouveau CRM. Encouragez-les à explorer et à expérimenter par eux-mêmes pour renforcer leur confiance dans l’utilisation du système.
  4. Assurer un suivi et un support continus : La formation ne se termine pas une fois que les utilisateurs maîtrisent les bases du nouveau CRM. Prévoyez un suivi régulier et un support technique pour répondre aux questions, résoudre les problèmes et aider les utilisateurs à tirer le meilleur parti du CRM dans leur travail quotidien.

 

En conclusion, la formation des utilisateurs est une étape cruciale pour garantir une transition en douceur vers le nouveau CRM. En identifiant les besoins de formation, en concevant un programme adapté, en privilégiant une approche pratique, en offrant un soutien continu et en favorisant l’engagement des utilisateurs, vous maximiserez les chances de réussite de la migration CRM.

Conclusion

La migration d’un CRM est un processus complexe et crucial pour une organisation. Il est essentiel de suivre les bonnes étapes et de prendre les bonnes décisions pour garantir le succès du projet. Dans cet article, nous avons exploré les différentes étapes clés pour réussir la migration de votre CRM.

Tout d’abord, il est important de cadrer le projet en définissant clairement les raisons et les objectifs de la migration. Comprendre les besoins de l’entreprise et des utilisateurs permet de choisir la nouvelle solution CRM adaptée. Ensuite, la construction d’une équipe projet solide, avec des rôles bien définis, favorise une collaboration efficace et une gestion optimale du projet.

L’état des lieux de l’organisation CRM actuelle permet de comprendre les cas d’usage actuels et de cartographier les flux de données, préparant ainsi le terrain pour la migration. Le choix de la nouvelle solution CRM doit être fait en fonction des cas d’usage cibles et de l’architecture CRM souhaitée. Il est recommandé de s’appuyer sur des experts et de considérer l’exploitation des données en ligne. La préparation de la migration implique le nettoyage des données de l’ancien CRM, la configuration du nouveau CRM et la réalisation de tests approfondis pour assurer une transition en douceur.

Enfin, la formation des utilisateurs au nouveau CRM est essentielle pour favoriser une adoption réussie. En concevant un programme de formation adapté et en offrant un soutien continu, les utilisateurs pourront exploiter pleinement les fonctionnalités du CRM.

En suivant ces étapes et en mettant en place une approche méthodique, vous augmentez vos chances de réussir la migration de votre CRM et de bénéficier des avantages d’un système adapté à vos besoins.

Comment analyser la performance de ses actions CRM ?

Les outils de CRM et d’emailing ne permettent pas d’avoir un suivi satisfaisant de l’impact des actions mises en place par l’entreprise. C’est probablement le constat que vous avez fait si vous atterrissez sur cet article.

Plusieurs éléments expliquent pourquoi beaucoup d’entreprises échouent à mesurer efficacement les actions CRM. D’abord, les actions CRM sont pour beaucoup cross-canal. Ensuite, une action CRM (une campagne ou un scénario) peut avoir des effets indirects, ou distants. Tout cela pose des problématiques complexes d’attribution. Dans ces conditions, mesurer l’impact des actions CRM est un challenge que nous allons vous aider à relever.

 
Pour mesurer l’impact des actions CRM, il faut d’abord commencer par construire une vision d’ensemble de toutes les actions déployées et rattacher toutes ces actions (campagnes et scénarios) à des objectifs précis, des KPIs mesurables. D’où la nécessite de construire un plan relationnel. C’est la démarche que nous allons vous présenter. Nous verrons ensuite comment mesurer la performance de vos campagnes et de vos scénarios relationnels.

Les limites des outils d’emailing / CRM pour mesurer l’impact des actions

Les reportings proposés par les outils d’emailing et de CRM sont limités par deux principaux inconvénients :

  1. Ils sont très centrés sur les campagnes et les canaux de conversation. De ce fait, ils n’offrent pas de vision d’ensemble du « parcours client », mais seulement une lecture partielle et étroite des actions.
  2. Les KPIs proposés sont relatifs à l’engagement : taux d’ouverture, taux de clics, taux de réactivité… Cela permet seulement d’analyser le comportement des clients à la lecture de l’email, mais pas l’impact business global des campagnes, avec par exemple le CA généré sur le site e-commerce.

 
Ces deux limites sont particulièrement importantes. Lorsque l’on met en place une campagne d’emailing, il est nécessaire de pouvoir mesurer les performances business qui en résultent. Or les actions marketing et CRM affectent durablement et souvent indirectement les parcours des clients. Par exemple, une campagne emailing peut avoir un impact sur les ventes en magasin : un client lit votre email, clique sur un produit, consulte la page du produit puis décide d’aller en magasin acheter le produit.

Ainsi, il est nécessaire de disposer d’informations supplémentaires. Vos responsables CRM doivent pouvoir prendre plus de hauteur. Cela est rendu possible grâce aux programmes et au plan relationnel.

Prendre de la hauteur : les programmes et le plan relationnel

Pour mesurer l’impact des actions CRM/Marketing au niveau du parcours client, il faut organiser les actions dans des programmes relationnels.

Un programme est un ensemble d’actions de marketing relationnel au service d’un objectif mesurable par un KPI. La logique des programmes permet de sortir de l’approche mono canal proposée par les outils CRM/Emailing classiques en se fondant sur des objectifs auxquels on associe un ensemble d’actions permettant d’exploiter plusieurs canaux et points de contact. Il existe deux types d’actions :

  • Les scénarios relationnels, qui se déclenchent en fonction du comportement des clients (scénario de bienvenue, scénario post-achat…) ou d’un événement client (scénario d’anniversaire, scénario d’anniversaire d’un contrat…).
  • Les campagnes marketing, qui sont ponctuelles ou périodiques (liées aux événements du calendrier).

Voici une manière de se représenter les différents programmes et les scénarios associés :

programmes CRM

Les programmes sont listés dans un document de cadrage et de suivi qui s’appelle le plan relationnel. Il permet d’avoir une vision d’ensemble de ses actions CRM/Marketing. C’est un document indispensable pour piloter ses actions de marketing relationnel de manière cohérente.

Comme nous l’avons précisé, les actions qu’il s’agit de mesurer sont scindées en deux catégories : les campagnes et les scénarios. Or, ces deux mesures diffèrent. Il est donc nécessaire de combiner deux approches pour évaluer l’impact de ces actions.

Suivre l’évolution des performances de mes campagnes à travers le temps

Les campagnes, qui sont des actions marketing ponctuelles, doivent faire l’objet d’une planification. Elles peuvent être menées au travers de plusieurs canaux (mail, site web, magasin…). En organisant les actions dans un plan relationnel, mesurer la performance d’une campagne ne consistera plus à analyser le taux d’ouverture ou le taux de clics mais à mesurer l’impact de cette action sur le KPI du programme auquel elle est rattachée.

Il est important de suivre l’évolution des performances de vos campagnes et de les comparer entre elles. L’analyse comparative de vos différentes campagnes est le meilleur moyen d’identifier les axes d’amélioration et de mettre en lumière les éléments les plus performants. Par exemple, l’effet de chaque campagne de Noël devrait être mis en perspective avec celles des années passées afin d’obtenir une compréhension précise de l’évolution de l’efficacité de cette action.

Mesurer l’impact des scénarios relationnels

Contrairement aux campagnes ponctuelles, les scénarios sont des éléments du bloc CRM plus complexes et dont l’impact est beaucoup plus difficile à mesurer. En effet, les scénarios, qui forment un ensemble d’actions se déclenchant en réponse au comportement d’un client, possèdent trois principales caractéristiques :

  • Un objectif qui doit être lié au but global du programme,
  • Un déclencheur qui est le point de départ de l’action,
  • Une séquence qui définit l’ensemble des messages et actions automatisés.

Pour obtenir une vision précise de l’effet des scénarios, nous vous proposons trois approches possibles.

L’approche classique, basée sur le suivi de KPIs

Cela consiste à suivre quelques KPIs bien choisis : le KPI du programme relationnel auquel il est rattaché ainsi que des KPIs secondaires qui ont un impact indirect sur le KPI principal. Idéalement, chaque scénario est associé à un indicateur précis qui doit être celui du programme relationnel si ce dernier est correctement structuré.

Nous pouvons prendre par exemple l’abandon panier, avec comme KPI principal le taux de clients avec des paniers abandonnés qui réalisent un achat après X jours. Un autre exemple plus complexe est le cross-sell un mois après l’achat, ou la part de clients qui réalisent un deuxième achat entre 30 et 45 jours après le premier.

Il faut ensuite réussir à établir un reporting précis et complet pour suivre ces fameux indicateurs.

L’analyse de cohortes

L’analyse de cohortes consiste à étudier les comportements de différents groupes de clients constitués en fonction de critères objectifs (clients ayant reçus le même email, disposant du même abonnement…). On peut alors comparer la performance d’un scénario au sein de différentes cohortes établies selon la date d’entrée du client. Cela peut consister par exemple à mettre en place en mars un nouveau scénario pour pousser le passage du 1er au 2ème achat grâce à une séquence de 5 emails sur 3 mois après le premier achat.

Pour mesurer l’impact du scénario, il faut regarder l’évolution du nombre d’achat moyen (ou du CA en base 100) par cohorte basée sur la date du premier achat. Pour les clients ayant acheté après mars, il faut que le nombre d’achats 2 et 3 mois après le premier achat soit plus important que pour ceux ayant réalisé un premier achat en janvier. Évidemment, le scénario n’est pas un facteur unique de différenciation. La cyclicité, les campagnes marketing et de nombreux autres éléments peuvent affecter les ventes, ce qui rend difficile d’évaluer la fiabilité des résultats.

L’A/B Testing

Cette méthode est la plus rigoureuse, mais aussi la plus difficile à mettre en place. Il faut scinder le groupe à tester en deux, puis appliquer le scénario sur le groupe A et comparer ensuite les résultats avec le groupe B qui sert de groupe de contrôle. Pour obtenir des résultats satisfaisant, il est nécessaire d’avoir un volume suffisamment important de clients dans chaque groupe.

20 indicateurs clés pour mesurer la performance CRM

Après avoir mis en place ces recommandations, il faut pouvoir suivre l’évolution de la performance de votre CRM. Nous vous proposons pour cela une liste de 20 KPIs que nous jugeons nécessaire d’avoir dans vos dashboards de suivi de performance.

Nom du KPIDescriptionCalcul
Taux d’activationPermet de mesurer la performance de l’activité de prospection.Nombre de prospects devenus clients / Nombre de prospects
Taux de clients actifsLes clients ayant acheté ou interagi récemment avec l’entreprise.Nombre de clients actifs / Nombre de clients
Taux de churnLe taux de clients actifs devenant inactifs sur une période.Nombre de clients perdus / Nombre de clients
Solde net d’acquisition clientComparaison de la variation du nombre de client actifs et inactifs.Nouveaux clients actifs – Nouveaux clients inactifs
Nombre de sollicitations cross canal par clientCela représente le nombre de sollicitations qu’un client va recevoir toutes plateformes confondues. Un nombre trop important peut mener à une pression commerciale trop forte.Somme des sollicitations par canaux / Nombre de clients contactés
Taux de réactivité Le taux de réactivité représente l’efficacité des messages, que l’on peut mesurer de manière agrégée ou par canal.Nombre de réponses / Nombre de contacts
Taux de désabonnement Cet indicateur permet de se rendre compte de la pertinence des campagnes marketing.Nombre de clients qui se désabonnent / Nombre de clients contactés
Nombre de commandes par période et par clientCette mesure donne la moyenne du nombre de commandes par client contactés.Nombre de commandes sur la période / Nombre de clients contactés
CA par période et par actif Permet d’évaluer l’efficacité commerciale du CRM.CA de la période par actif / Nombre de clients sollicités
CA des clients sollicités vs non sollicitésCette mesure est extrêmement importante en ce qu’elle permet de mettre en perspective l’efficacité des actions CRM.1 : CA lié aux clients sollicités / Nombre de clients sollicités
2 : CA lié aux clients non sollicités / Nombre de clients non sollicités
Comparer 1 et 2
ROI globalCet indicateur est aussi classique qu’essentiel pour se rendre compte de l’utilité du CRM.Revenus liés au CRM – Dépenses liées au CRM
CAC (customer acquisition cost)Mesure moyenne du coût d’acquisition client, à mettre en perspective avec le revenu moyen généré par client. Dépenses totales de CRM / Nombres de clients conquis
CLV (customer lifetime value)Cela représente la valeur moyenne d’un client au court de son cycle de vie. Il est particulièrement intéressant de mettre cette valeur en perspective du CAC.Panier moyen par client x nombre moyen de paniers par client
Longueur des étapes du processus CRM Mesure du temps passé à chaque étape du processus CRM (du premier contact à l’achat par exemple), en ayant pour objectif de réduire cette durée.Mesure et comparaison des durées par étapes
Durée du cycle de venteLe temps moyen qu’il faut à un client pour finaliser une vente. Le point de départ peut différer en fonction des analyses (arrivée sur le site, emailing…). Temps en minutes/heure entre une action prédéfinie et la validation de la vente
Temps moyen de résolution des problèmes clientsCe KPI est utilisé pour comprendre les étapes dans lesquelles les opérateurs individuels rencontrent le plus de difficultés. Il peut également rendre compte de la rapidité et de l'efficacité de la réponse au client.Nombre d’heures ou de jours pour résoudre une demande d’un client
NPS (net promoter score)Cette métrique représente, sur une échelle de 1 à 10, la probabilité que les clients recommandent l’entreprise.Un sondage proposé aux clients, généralement après une action sur le site.
Taux de complétudeMesure le taux de remplissage de la base de données par indicateur, ce qui donne un éclairage sur la connaissance des clients.Nombre de lignes vides pour une colonne / Nombre de lignes
Dépenses des nouveaux clients Cette mesure vise à montrer la valeur des « nouveaux clients ». La durée pendant laquelle un client est considéré comme « nouveau » doit être déterminée en fonction du type d’activité. Panier moyen des nouveaux clients x nombre moyen de panier
Taux de revalorisation des ventes (upsell)Le taux d'upsell est le nombre de clients qui améliorent leur achat, en choisissant une version plus chère d'un produit ou d'un service. La gestion de la relation client peut contribuer à augmenter le taux de vente en fournissant des informations utiles pour prédire quelles pistes sont les plus susceptibles de se transformer en direction "premium".Nombre de clients revalorisant leur panier suite à une interaction CRM / Nombre de clients validant un panier

Mesurer l’impact de vos actions CRM est un processus complexe et exigeant qui requiert de nombreuses ressources. Disposer d’un accompagnement de qualité et de softwares performants représente un avantage certain, que nous vous aidons à établir dans notre comparatif des meilleurs prestataires CRM.

Il est nécessaire de suivre l’évolution de l’efficacité de ses actions en continue et de regrouper les résultats au sein de dashboards clairs et pertinents. C’est uniquement en travaillant sans cesse à l’amélioration de la performance de votre CRM que vous parviendrez à en faire un avantage concurrentiel capable de fidéliser vos clients et d’augmenter leur lifetime value, et de booster ainsi votre activité.

Augmenter la rétention client grâce à l’analyse de cohortes

Peu de marketers maîtrisent l’analyse des cohortes alors qu’il s’agit sans doute de la méthode la plus puissante pour comprendre la rétention client et identifier les axes d’amélioration. Intégrer une analyse de cohortes dans un reporting de la rétention client vous permettra de franchir un gros cap.

L’objectif de cet article est de vous initier à l’analyse des cohortes appliquée au marketing et à la connaissance client. Nous allons vous présenter 3 méthodes pour faire de l’analyse de cohortes + 4 cas d’usage concrets pour vous donner un aperçu de la puissance de cet outil.

L’importance de l’analyses des cohortes en marketing

Analyse des cohortes : Définition

L’analyse de cohortes est une méthode consistant à suivre dans le temps et à comparer des groupes d’individus homogènes appelés « cohortes ».

La méthode est utilisée par exemple dans la recherche médicale pour analyser et comparer les effets de long-terme d’un traitement.

Mais elle est utilisée dans bien d’autres domaines, dont le marketing. C’est le sujet de cet article 🙂

Intérêt de la méthode en marketing

En marketing, l’analyse des cohortes permet de suivre dans le temps le comportement de groupes homogènes d’utilisateurs ou de clients. Elle est très intéressante pour analyser la rétention client et la lifetime value.

L’analyse de cohortes vous permet en effet de suivre l’évolution dans le temps d’un paramètre appelé « métrique » (taux de rétention, panier moyen, LTV etc.) pour un groupe de personnes établi de manière fixe (classiquement, tous les utilisateurs ayant réalisés leur premier achat un jour donné).

Cela vous permet donc de faire un focus sur ces « métriques » clés pour développer des revenus durables, sans être dupés dans l’analyse par une croissance du revenu total, provenant le plus souvent de l’acquisition de nouveaux clients, qui peut cacher des problèmes majeurs dans votre stratégie de rétention clients et d’accroissement de la LTV.

Demo_Octolis
Un des cas d’usage de l’analyse de cohortes en marketing : la mesure de la rétention client.

Comme dit le dicton, « ce que vous ne pouvez mesurer, vous ne pouvez l’optimiser ». Avec l’analyse de cohortes, vous allez donc désormais pouvoir :

  • Etudier la périodicité des achats et identifier les moments opportuns pour relancer vos acheteurs.
  • Identifier les fonctionnalités, les pages ou les modifications apportées qui améliorent la fidélisation de vos clients, mesurée par votre taux de rétention (c’est-à-dire sur 100 clients, le nombre qu’ils vous restent après une période donnée).
  • Construire un plan d’action pour améliorer l’engagement clients en fonction des fonctionnalités/produits les plus plébiscitées par vos utilisateurs.
  • Mettre en place un marketing efficace et bien ciblé qui ne suscitera pas l’acrimonie de vos utilisateurs.

Vous allez ainsi, par exemple, pouvoir identifier les meilleurs moments pour relancer vos acheteurs récurrents ou déployer efficacement des offres promotionnelles à vos clients existants en comparant les taux de rétention à la suite d’offres réalisées à des moments différents.

Mais concrètement, comment ça marche ?

3 méthodes pour mettre en place une analyse des cohortes sur sa base clients

#1 L’analyse de cohortes avec Google Sheets

Vous pouvez faire de l’analyse de cohortes en utilisant Excel ou GoogleSheets. Cet outil indémodable et puissant permet de construire des modèles de reporting avancés.

Comment ça marche concrètement ? Il s’agit dans un premier temps d’identifier le type de cohortes que vous souhaitez étudier : cohorte constituée par date d’acquisition ou cohorte de visiteur ayant eu un même comportement à une date donnée.

Ensuite, vous devez clarifier l’hypothèse que vous souhaitez tester (ex: la deuxième relance par mail augmente-t-elle les actes d’achats ou le panier moyen ?), ainsi que l’indicateur pertinent (ex: le panier total ou le nombre d’achats au cours d’une période donnée).

ProfitWell propose un template Spreadsheet pour faire de l’analyse de cohortes. Vous pouvez le télécharger gratuitement ici. Voici à quoi il ressemble :

ProfitWellCohortAnalysis

Ce Spreadsheet vous permet de visualiser l’évolution du revenu au cours du temps, en fonction de cohortes construites sur la date d’inscription.

Il vous suffit d’y renseigner dans l’onglet « transactions » les données que vous avez collectées et que vous souhaitez analyser, relatives par exemple aux transactions, ou aux désabonnements d’une newsletter. Le rapport d’analyse des cohortes sera automatiquement produit dans l’onglet dédié.

La prise en main de l’outil est très rapide, mais les possibilités analytiques sont limitées. Les formules n’étant pas cachées cela pourra vous permettre également de construire votre propre outil d’analyse sur tableur qui permettra de répondre aux besoins spécifiques de votre projet d’analyse, notamment en termes de construction des cohortes.

#2 L’analyse de cohortes avec Google Analytics

Le second outil à votre disposition pour mener une analyse de cohorte est Google Analytics,  déjà célèbre parmi les marketers, et qui propose désormais un outil d’analyse de cohortes, en version bêta, également facile à prendre en main.

Cet outil vous permet notamment d’appliquer directement des analyses en cohorte aux données recueillies par Google Analytics, relatives à votre site e-commerce.

Octolis_GoogleAnalytics_CohortAnalysis

L’outil d’analyse de cohorte se situe dans l’onglet « Audience » et nécessite que vous choisissiez l’indicateur qui vous parait pertinent (à renseigner dans le champ « métrique ») et la « taille de la cohorte », c’est-à-dire la période de temps élémentaire sur laquelle vous souhaitez travailler (jours, semaine ou mois).

L’essentiel est de choisir une taille de cohorte pertinente par rapport à l’hypothèse que vous souhaitez tester : optez pour un jour pour identifier des effets directs d’une relance client ou d’un changement apporté au site, optez plutôt pour le mois si vous souhaitez visualiser votre rétention client de long-terme.

Pour optimiser votre analyse de cohorte vous pouvez également ajouter d’autres segments à l’analyse (en haut de la page). Par exemple, vous pouvez identifier d’où viennent la plupart de vos utilisateurs en ajoutant des segments site web/mobile et ainsi identifier plus finement les éventuelles déperditions de clients potentiels.

Enfin, choisissez plutôt une « métrique » directement liée à votre capacité à susciter des actes d’achat plutôt que des « vanity metrics » (métriques vaniteuses) telles que les métriques de trafic. Ces dernières non seulement ne se traduisent pas forcément en chiffre d’affaires mais peuvent vous amener à prendre des mauvaises décisions comme l’explique Patrick Han dans son article dédié à l’optimisation de votre analyse de cohortes sur Google Analytics.

Cette méthode se confronte aux mêmes limites que la précédente avec des possibilités analytiques limitées. Google Analytics, ne permet notamment pour l’instant qu’un seul « type de cohorte » (champ en haut de la page) : la date d’acquisition, qui correspond à la première interaction de l’utilisateur avec votre ressource.

#3 L’analyse de cohortes avec Octolis

Octolis propose un outil vous permettant de réaliser des analyses de cohortes plus sophistiquées que Google Sheets ou Google Analytics. Vous pouvez notamment y suivre des cohortes clients avec pour métrique le nombre d’achats ou le chiffre d’affaires cumulé.

Demo_Octolis

Les principaux atouts de cet outil sont :

  • L’accès rapide à des données nettoyées et en temps réel.
  • La réconciliation des données online & offline, ce qui permet de consolider le chiffre d’affaire par client réalisé en ligne et en magasin. Cela étoffe l’analyse de cohorte en prenant en compte les effets d’attraction en magasin de votre stratégie e-commerce, et inversement.
  • La possibilité d’exploiter les données issues de ces analyses en temps réel dans les outils métiers pour déclencher automatiquement la bonne séquence email personnalisée ou de mieux recibler vos Ads vers de potentiels clients.

L’outil est également très ergonomique et facile à prendre en main, comme le montre la capture d’écran ci-dessus.

Comment exploiter une analyse des cohortes en Retail – Zoom sur 4 cas d’usage

Une fois l’analyse de cohorte réalisée, comment concrètement en tirer le plus utilement parti ? On vous donne quelques idées et exemples d’implémentation des conclusions d’une analyse de cohorte.

Premier cas d’usage – Comprendre le timing des achats

L’analyse des cohortes vous permet de comprendre quand vos clients reviennent naturellement et quelle est l’évolution dans le temps du contenu de leur panier.

Le premier usage de l’analyse de cohortes est donc de vous aider à optimiser le timing de vos campagnes post-achat afin d’accroître le taux de retour sur votre site au moment le plus opportun et de mettre en avant les produits les plus susceptibles de les attirer.

Vous pouvez y ajouter des catalyseurs de conversion tels que la livraison gratuite ou des offres promotionnelles.

Deuxième cas d’usage – Ajuster le budget d’acquisition (et le CAC)

L’analyse de cohortes grâce à des outils tels qu’Octolis vous permet d’optimiser votre retour sur investissement marketing en ciblant les bons types de prospects, les bons canaux d’acquisitions et les moments opportuns pour déployer vos campagnes d’Ads.

Vous pouvez ainsi concentrer vos budgets marketing en suivant les stratégies gagnantes identifiées et d’augmenter les acquisitions à budget marketing constant. Cela vous permet également d’investir davantage, en étant plus assuré d’un bon retour sur investissement de votre campagne publicitaire.

Cet enjeu est majeur dans la mesure où les coûts d’acquisition ont eu tendance à croître ces dernières années de l’ordre de 70 % dans les industries B2B et d’un peu plus de 60 % pour les marques B2C par rapport à il y a quatre ans, selon les chiffres compilés par ProfitWell.

evolution_cout_acquisition_profitwell
Evolution du coût d’acquisition ces dernières années

Troisième cas d’usage – Optimiser vos campagnes de remises

Une autre utilisation intéressante de l’analyse de cohorte est de vous permettre d’optimiser votre stratégie de remise.

Pour ce faire, créez d’abord deux segmentations de cohortes comportementales, l’une qui a acheté avec une remise et l’autre qui a acheté sans remise. Ensuite, comparez le comportement de ces cohortes au cours des 90 jours suivants (ou tout autre délai pertinent pour votre entreprise).

Vous pouvez commencer à voir si les remises permettent de fidéliser les clients ou si elles ne font que perdre des revenus sans accroître le taux de conversion ou le panier moyen.

Quatrième cas d’usage – Améliorer vos campagnes

Il est difficile d’estimer en amont l’efficacité d’une campagne de bienvenue ou d’une campagne post-achat, et les éléments qu’il est préférable de mettre en avant.

L’analyse de cohortes vous permet de mettre en concurrence différentes campagnes, en comparant le taux de conversion à plusieurs horizons de ces dernières et d’ainsi identifier les éléments qui en font le succès en termes de graphisme, produits mis en avant etc.

Vous pouvez rapidement établir un graphique des performances des différents segments sur les périodes de 30 et 60 jours suivantes et, en fin de compte, comprendre quelle série d’email de bienvenue/relance réussit le mieux à transformer les nouveaux visiteurs en clients réguliers.

Construire une segmentation RFM – Le Guide complet

Si vous n’avez toujours pas mis en place de segmentation RFM aujourd’hui, vous n’avez pas raté votre vie mais par contre vous passez à côté d’une belle opportunité de développer votre activité. Ce message s’adresse tout particulièrement aux Retailers 🙂

La segmentation RFM consiste à segmenter vos clients en fonction de leur comportement d’achat, avec pour finalité de construire une stratégie marketing plus ciblée, plus intelligente, plus ROIste, plus en phase avec les besoins, attentes et propensions de vos clients. A la clé, une meilleure rétention client, une optimisation de la lifetime value et des campagnes d’acquisition plus efficaces.

Si vous pensez comme nous qu’il est plus logique d’inviter vos meilleurs clients à rejoindre votre programme de fidélité plutôt que de leur envoyer des promotions tous les mois, alors vous comprendrez rapidement la logique du modèle RFM. Une logique simple, facile et efficace.

Dans ce guide complet, on vous explique ce qu’est la segmentation RFM, les résultats que ça permet d’atteindre et surtout comment construire une segmentation RFM étape par étape (avec un cas pratique).

RFM : Définition

Qu’est-ce qu’une Segmentation RFM ?

La segmentation RFM est un type de segmentation qui permet d’analyser le comportement d’achat de vos clients et de les segmenter à partir de trois variables : Récence (R), Fréquence (F) et Montant (M).

La segmentation RFM est simple à mettre en place dans la mesure où elles se basent sur des données que vous avez forcément dans votre système d’information, à savoir les données transactionnelles, l’historique d’achat de vos clients stocké dans votre système de caisse et/ou votre solution ecommerce.

Le RFM est une technique de segmentation ancienne. Elle était utilisée dans les années 1960 par les entreprises de VAD pour réduire la taille des catalogues papiers : par exemple, pour n’envoyer que les produits les plus chers aux meilleurs clients :). Depuis les années 1960, les cas d’usage se sont multipliés.

La segmentation RFM reste l’une des techniques les plus intéressantes pour segmenter les clients dans le Retail et l’Ecommerce.

Son utilisation est pourtant loin d’être généralisée et c’est vraiment dommage. Si nous réussissons à convaincre des retailers et des ecommerçants de se lancer dans la segmentation RFM, alors cet article aura atteint son but.

10 exemples et méthodes de segmentation client

La segmentation client peut prendre des formes différentes (dont la segmentation RFM) mais consiste toujours à diviser les clients en groupes homogènes appelés « segments ». Si les cas d’usage de la segmentation sont multiples, le principal consiste à mettre en place des actions spécifiques pour chaque segment. La segmentation rend possible un marketing ciblé. Pour élargir vos horizons, nous vous invitons à découvrir 10 exemples et méthodes de segmentation client.

Récence, Fréquence, Montant

La segmentation RFM se construit à partir de 3 métriques : Récence, Fréquence, Montant.

segmentation rfm tableau synthese
Source : clevertap.com

R pour Récence

La récence désigne le temps écoulé depuis le dernier achat. Elle est exprimée en nombre de jours. Une récence de 8 par exemple signifie que le dernier achat remonte à 8 jours. On dira que la récence a une valeur de 8.

Pourquoi utiliser cette variable ? La logique est simple : plus un client a acheté récemment, plus il y a de chances qu’il achète de nouveau chez vous. A l’inverse, un client qui n’achète plus depuis longtemps a peu de chances de repasser commande. Toutes les variables utilisées dans le modèle RFM visent à mesurer le niveau d’engagement client.

Il est important de prendre en compte le contexte de votre activité pour analyser correctement cette variable. Les cycles d’achat sont différents d’un secteur à l’autre. L’exemple souvent cité est celui du secteur automobile, où les périodes interachats sont beaucoup plus longues que dans le secteur du prêt-à-porter par exemple.

F pour Fréquence

La fréquence est la variable qui indique le nombre de commandes passées sur une période donnée. Elle permet d’identifier les clients les plus engagés et les plus loyaux.

Si vous choisissez de prendre l’année comme période de référence et que votre client a acheté 9 fois au cours de l’année écoulée, la fréquence est égale à 9.

Là encore, l’interprétation de cette variable doit prendre en compte les caractéristiques de votre secteur d’activité. Le choix de la période de référence doit aussi s’appuyer sur votre contexte business. On choisit généralement l’année, le trimestre ou le mois.

M pour Montant

Le montant désigne le montant des commandes passées par le client au cours de la période de référence. Il s’exprime en euros.

Cette variable permet notamment de distinguer les clients dépensiers des dénicheurs de bonnes affaires. Un client qui a passé 10 commandes de 10 euros n’a pas le même profil d’acheteur qu’un client qui a passé une commande 100 euros, mais si au final le chiffre d’affaires généré est le même.

Top 50 des dashboards ecommerce Google Data Studio

Data Studio est un outil facile d’utilisation et gratuit pour construire des reportings et des tableaux de bord à partir de vos données. Nous avons sélectionné pour vous les 50 meilleurs modèles de dashboards ecommerce pour piloter votre performance dans tous ses aspects. A lire ne serait-ce que pour évaluer la richesse de cet outil de « DataViz ».

L’importance du RFM dans le Retail

Se concentrer sur les clients qui ont le plus de valeur

Si on applique le principe de Pareto au modèle RFM, alors 80% de vos revenus proviennent de 20% de vos clients – vos meilleurs clients. Cette proportion se vérifie très souvent !

Vous avez intérêt à focaliser vos efforts sur vos meilleurs clients. Cela vous permettra :

  • D’augmenter le revenu par client de vos meilleurs clients.
  • De mieux maîtriser vos coûts marketing.

La segmentation RFM permet d’identifier de manière simple qui sont vos meilleurs clients.

Vos meilleurs clients sont ceux qui achètent le plus fréquemment, qui génèrent le plus de chiffre d’affaires et qui ont acheté récemment. Autrement dit, ce sont les clients qui ont les meilleurs scores R, F et M. Nosu reviendrons en détail tout à l’heure sur la signification des scores, mais avoir un très bon score R, c’est tout simplement faire partie des clients qui ont acheté le plus récemment. Idem pour F et M.

Maximiser la rétention

Acquérir des clients coûte plus cher que de fidéliser ses clients actuels. On a déjà dû vous le répéter 100 fois, mais c’est vrai !

Ce n’est pas pour rien que les entreprises multiplient leurs efforts pour améliorer la rétention des clients, que cela passe par la mise en place d’un programme de fidélité ou la construction d’un dialogue clients plus riche et plus ciblé.

Le modèle RFM peut vous aider à :

  • Identifier qui sont vos meilleurs clients.
  • Analyser les indicateurs clés de performance pour chaque segment RFM afin de savoir où en est votre entreprise par rapport à vos objectifs de rétention.
  • Faire une analyse qualitative de vos meilleurs clients pour identifier les actions les plus efficaces pour améliorer leur fidélité.
  • Créer un marketing différencié pour chaque segment RFM : meilleurs clients, clients occasionnels, clients à potentiel, clients à risque d’attrition, etc.
  • Améliorer vos campagnes d’acquisition en ciblant des audiences partageant les mêmes caractéristiques que vos meilleurs clients.

Bref, le modèle RFM est très pertinent pour construire un marketing relationnel ciblé dans le Retail. Et, croyez-nous, c’est la meilleure manière de retenir et fidéliser vos clients.

Segmenter sa base client à partir d’un score RFM

Le modèle RFM permet de segmenter sa base clients en créant des segments de clients construits sur la base des trois variables R, F et M.

  • Les meilleurs clients. Ils ont les meilleurs scores en R, en F et en M. Leur dernier achat est très récent, ils achètent souvent et pour de gros montants. Ils ont certainement souscrit votre programme de fidélité si vous en avez un 🙂
  • Les dépensiers. Ce sont les clients qui ont un excellent score M, sans être au top sur les deux autres variables R et F. Ils achètent pour de gros montants, mais moins fréquemment que les meilleurs clients.
  • Les clients fidèles. Ce sont les clients qui ont un excellent score F. Ils ont une très bonne fréquence d’achat, mais ont un panier moyen moins élevé que celui des dépensiers.
  • Les clients à risque. Ce sont d’anciens bons clients qui ont aujourd’hui un mauvais score R et un score F. Ils n’ont pas acheté depuis longtemps.
  • …/…

Voilà 4 exemples de segments que vous pouvez construire sur la base de l’analyse des scores RFM. Dans la pratique, les entreprises utilisent une dizaine de segments RFM, parfois une quinzaine.

Voici à titre d’exemples les segments RFM utilisés par Octolis. Les chiffres désignent les scores. Les Champions, par exemple, ont un score Récence et un score Fréquence*Montant de 5 ou 6 (sur une échelle de 6).

liste segments rfm octolis

Comme vous pouvez le constater, nous avons fusionné Fréquence et Montant, ce qui est classique dans nos univers métier.

Mettre en place une segmentation RFM pas à pas

Nous allons maintenant vous expliquer étape par étape comment construire un modèle RFM et la segmentation qui va avec.

Les prérequis pour construire un modèle RFM

Pour construire un modèle RFM, vous devez être capable d’identifier vos clients. C’est la base. Vous ne pouvez savoir qu’un client est un de vos meilleurs clients si vous ne connaissez pas d’abord l’identité de ce client. Logique.

Vous avez donc besoin d’identifiants clients. Cela peut être un customer ID, une adresse email, un nom + prénom, un téléphone…Peu importe, il faut une information, une donnée qui vous permette d’identifier vos clients.

Ensuite, vous avez besoin des données transactionnelles sur vos clients. Plus précisément, vous devez connaître pour chaque client :

  • La date de dernier achat. Cette donnée vous permettra de construire le score Récence.
  • Le nombre de transactions réalisé sur la période de référence (le mois, le trimestre ou l’année). Cette information vous permettra de construire le score Fréquence.
  • Le montant dépensé sur la période, qui vous permettra de construire le score M. Il s’agit du montant total des achats par client sur la période de référence.

Toutes ces informations sont accessibles dans votre système de caisse et/ou dans votre solution ecommerce. Vous avez donc en principe tout à disposition. C’est l’une des forces de la segmentation RFM.

Construire le tableau des valeurs RFM

Avec ces informations, vous allez pouvoir construire un tableau de ce type :

Id ClientRécence (jour)Fréquence (nombre)Montant (total)
146540
2611940
346135
423365
5154179
632256
773140
8501950
934152630
10105191
1138845
121101510
1327354
1418240
155125

Ce tableau contient les valeurs R, F et M pour chaque client.

Rappelons que la récence est exprimée en nombre de jours depuis le dernier achat, la fréquence en nombre de commandes réalisées sur la période, et le montant en devise, ici l’euro.

Des valeurs RFM aux scores R, F et M

Une valeur, c’est une donnée brute. Un score, c’est une évaluation : c’est bien ou c’est pas bien. Est-ce que 500 euros de montant (la valeur) est bien ou pas ? Si c’est bien, le score sera élevé.

A partir des valeurs RFM extraites de votre système d’information, vous allez pouvoir construire un score pour chacune des trois variables :

  • Un score R
  • Un score F
  • Un score M

Le score est souvent calculé sur une échelle de 1 et 5. 1 désigne le score le plus bas, 5 le score le plus haut. Par exemple, un client qui n’a pas acheté sur la période a un score F de 1 et un score M de 1.

Les scores sont généralement calculés de manière relative. Si vous utilisez l’échelle classique de 1 à 5, le score de 5 est attribué aux 20% des clients qui ont la meilleure valeur R. Le score 1 est attribué aux 20% des clients qui ont la moins bonne valeur R.

Mais vous pouvez ajouter plus de granularité en adoptant une échelle plus large, de 1 à 6, de 1 à 7, voire de 1 à 10. Si vous choisissez de répartir les scores sur une échelle de 1 à 10, vous attribuerez un score de 10 aux 10% meilleurs clients.

Mais dans l’exemple qui suit, pour que ce soit plus simple à comprendre, nous avons choisi d’utiliser une échelle de 1 à 5.

Vous pouvez donc calculer chaque score séparément. Par exemple, voici un exemple de tableau pour le calcul du score R :

ID ClientRécenceRangScore R
12115
11325
1435
15554
2654
7764
101073
51583
141893
423102
1327112
632122
932131
346141
850151

On utilise ici un scoring relatif. Il y a 15 clients et une échelle de 1 à 5. Donc 3 clients par score. Les clients sont classés par score décroissant. Dans cet exemple, les meilleurs clients (score de 5) sont les clients 12, 11 et 1.

Vous pouvez faire la même démarche pour calculer les scores F et M.

ID ClientFréquenceScore F
9155
2115
12105
1184
164
1054
543
1333
733
432
1422
622
1511
811
311
ID ClientMontantScore M
926305
1215105
89505
29404
118454
15404
101913
51793
71403
4652
6562
13542
14401
3351
15251

Des scores R, F et M au score RFM

Vous pouvez ensuite combiner les différents scores R, F et M pour obtenir un score RFM. Ce n’est pas forcément ce que nous recommandons, car l’intérêt des scores R, F et M est surtout de construire des segments (spoiler alert, on vous en parle plus bas).

Si vous voulez construire un score RFM global, vous pouvez le faire en additionnant les scores R, F et M et en divisant le tout par 3. Voici à quoi ressemble un tableau présentant les scores RFM :

ID ClientCellules RFMScore RFM
15,4,44.3
24,5,44.3
31,1,11.0
42,2,22.0
53,3,33.0
62,2,22.0
74,3,33.3
81,1,52.3
91,5,53.7
103,4,33.3
115,4,44.3
125,5,55.0
132,3,22.3
143,2,12.0
154,1,12.0

Le client 1 a un score R de 5, un score F de 4 et un score M de 4. Il a donc un score de (5 + 4 + 4) / 3 = 4.3.

Dans cet exemple, nous attribuons un poids égal à chaque variable, mais vous pouvez utiliser un système de pondération. Cela fait sens dans certains cas, comme nous le verrons tout à l’heure.

Mettez en place des recommandations de produits

La recommandation de produits est l’un des moyens les plus simples pour augmenter le panier moyen et, au-delà, le chiffre d’affaires dans le ecommerce. Dites-vous bien que 35% des ventes d’Amazon sont générées grâce à des recommandations proposées sur la plateforme et par email. Découvrez notre guide complet sur la recommandation de produits ecommerce : Méthode & Outils.

Des scores aux segments RFM

Si vous utilisez une échelle de scoring de 1 à 5, vous avez théoriquement 5 x 5 x 5 combinaisons possibles, soit 125 combinaisons. Vous pouvez donc créer 125 segments clients. Si vous utilisez une échelle de scoring de 1 à 6, de 1 à 7, les combinaisons se multiplient.

Mais ça n’a pas de sens d’utiliser autant de segments.

La bonne pratique consiste à limiter le nombre de segments à 20 maximum.

Dans ce cas, vous pouvez par exemple créer un segment « Champions » réunissant les clients ayant :

  • Un score R de 4 ou 5
  • Un score F de 4 ou 5
  • Un score M de 4 ou 5

Cette manière de faire permet de limiter le nombre de segments RFM. Chez Octolis, nous utilisons 11 segments, c’est largement suffisant (voir la capture d’écran présentée un peu plus haut).

Une méthode plus simple pour calculer les scores RFM

La méthode que nous venons de vous présenter a le mérite de vous présenter la logique du modèle RFM. Vous partez de vos données, vous les transformez en valeurs R, F, M, ces valeurs sont ensuite transformées en scores R, F et M, puis en segments RFM.

Mais plutôt que de construire manuellement vos scores RFM sur Excel, vous pouvez utiliser un outil qui vous fait les calculs automatiquement. Cela vous fera économiser du temps, supprimera le risque d’erreurs humaines et vous permettra de vous concentrer sur l’essentiel : la conception des actions marketing (campagnes et scénarios) sur chaque segment RFM.

Notre solution Octolis vous permet de créer des segments RFM automatiquement.

Vous n’avez que deux choses à faire si vous choisissez d’automatiser le modèle RFM.

La première chose consiste à définir les segments. Chez Octolis, nous utilisons 11 segments. Nous utilisons des scores compris sur une échelle de 1 à 6. Le segment « Champions » regroupe les clients ayant un score R de 5 ou 6 et un score F*M de 5 ou 6.

Mais après, à vous de faire votre sauce en choisissant des segments signifiants. Une quinzaine tout au plus, pas la peine de monter une usine à gaz.

Une fois que vous avez défini les segments et leurs caractéristiques, vous pouvez les configurer dans Octolis de manière intuitive. Aucune compétence technique n’est requise. L’interface est marketing user-friendly.

creation segments rfm octolis

Pour alimenter les données qui nourrissent le modèle RFM (les ID clients et les données transactionnelles), il vous suffit de connecter vos sources de données à Octolis. Nous proposons des connecteurs avec des systèmes de caisse et des solutions ecommerce pour créer le pipeline en quelques clics, sinon il y a les APIs qui ne sont pas beaucoup plus compliquées à utiliser.

Exploiter votre segmentation RFM

Remettre votre score RFM dans votre contexte business

Dans l’exemple que nous venons de vous présenter, nous attribuons un poids égal à chacune des 3 variables R, F et M.

Or, ces variables n’ont pas forcément la même importance suivant votre business. Si vous voulez construire un score RFM global, il peut être intéressant de pondérer les scores.

Par exemple :

  • Dans un business qui commercialise des produits ayant une longue durée de vie, la valeur M est souvent (très) élevée alors que les valeurs R et F sont faibles. C’est typiquement le cas dans les secteurs de l’automobile, de l’immobilier ou encore dans l’électroménager. On n’achète pas un frigo tous les quatre matins, et encore moins un bien immobilier. Dans ce contexte business, il est pertinent de donner plus de poids aux variables R et M qu’à la variable F.
  • Dans les secteurs du prêt-à-porter et des cosmétiques, un client qui achète des produits tous les mois aura un score R et F plus élevé que le score M. Dans ce cas, il faut donner plus de poids aux scores R et F qu’aux scores M.

Ce sont deux exemples qui montrent qu’il est souvent judicieux d’utiliser un système de pondération pour calculer les scores RFM.

Le guide du Scoring Client

Le scoring client permet de prioriser vos budgets marketing pour les clients les plus susceptibles d’acheter, et de mieux segmenter votre fichier client pour obtenir de meilleures performances dans vos campagnes. Découvrez notre guide complet sur le Scoring Client : Définition, exemples et méthode en 5 étapes.

Intégrer la dimension historique (passage d’un segment à l’autre entre les périodes N et N-1)

Un client peut passer d’un segment A à un segment B. C’est même la règle ! La segmentation RFM est dynamique. Pour aller plus loin, il est intéressant d’intégrer dans votre analyse des segments à l’instant t les segments de la période précédente. Le passage d’un segment à l’autre entre la période N-1 et la période N peut être l’occasion de mettre en place des scénarios marketing spécifiques.

De cette manière, vous ne vous contentez pas de cibler les actions marketing sur vos segments RFM, vous ciblez des actions spécifiques sur les clients ayant changé de segment. Vous ajoutez à la dimension structuraliste de la segmentation à l’intant t une dimension historique.

Visualiser votre RFM plus simplement

Nous vous conseillons d’utiliser une matrice RFM pour mieux visualiser vos segments RFM et leur poids respectif dans votre base clients.

Voici celle proposée par Octolis :

matrice rfm

La taille des rectangles est proportionnelle à la taille des segments. En passant la souris sur les rectangles, vous pouvez voir en un coup d’œil le poids respectif de chaque segment RFM.

segmentation rfm octolis

Aller plus loin

Le modèle RFM est puissant, mais a malgré tout quelques limites :

  • L’erreur humaine…Si vous optez pour l’approche manuelle (Excel), vous ne pouvez pas écarter le risque d’erreur humaine…D’où l’intérêt d’utiliser un outil pour automatiser les calculs à partir de vos données transactionnelles.
  • Juste 3 variables. La segmentation RFM n’utilise que 3 variables, 3 variables liées au comportement d’achat de vos clients. C’est passé à côté de beaucoup d’autres variables de segmentation intéressantes. Il est aujourd’hui possible de construire des modèles prédictifs intégrant plus de variables, et donc plus puissants.
  • La sur-sollicitation des meilleurs clients. Beaucoup d’entreprises utilisent la segmentation RFM pour bombarder leurs meilleurs clients de communications et délaisser les autres clients. Il y a un usage du modèle RFM qui peut s’avérer contre-productif…et dans lequel tombent pas mal d’entreprises.
  • Des hypothèses critiquables. Un client peut très bien ne pas acheter pendant 3 mois et se mettre tout à coup à devenir un acheteur compulsif. Les hypothèses qui servent de base au modèle RFM ne se vérifient pas toujours. Par exemple : « Un client qui a acheté récemment a plus de chances d’acheter à nouveau » : eh bien, c’est souvent vrai, mais pas toujours et pas pour tous les clients.
  • Une segmentation pas assez granulaire. Beaucoup de Retailers construisent une segmentation RFM sur l’ensemble de leurs produits alors que le comportement client est souvent différent d’une gamme de produits à l’autre. On se retrouve donc à comparer des choux et des carottes et surtout à mettre en place des communications (notamment, des recommandations de produits) qui sont peu pertinentes pour les clients. Avec, au final, un impact négatif sur la rétention et la fréquence d’achat.

Mais, sur ce dernier point, sachez qu’il existe des solutions pour calculer un score RFM par produit ou par gamme de produits. Octolis en fait partie. Notre solution vous permet de calculer en temps réel un RFM par produit. Surtout, une solution comme Octolis vous permet de faire remonter automatiquement les segments RFM dans vos outils d’activation : Marketing Automation, Facebook & Google Ads…

Voilà, nous espérons que ce guide d’introduction à la segmentation RFM vous aura apporté les éclairages que vous attendiez. Pour une entreprise du Retail qui veut se lancer dans la segmentation client, le modèle RFM reste la référence. Vous avez des doutes ou des questionnements sur le bon modèle de segmentation à mettre en place dans votre entreprise ? Eh bien, n’hésitez pas à nous contacter. On se fera un plaisir d’échanger avec vous !

Comment construire votre stack data moderne ? Comparaison des approches possibles

Le meilleur investissement que vous puissiez faire si vous voulez mieux exploiter vos données, c’est construire une stack data moderne.

La stack data, c’est l’ensemble des outils gravitant autour du data warehouse qui va vous permettre de valoriser vos données et de pleinement les exploiter dans vos applicatifs métier.

Il existe essentiellement 3 approches pour construire une stack data moderne :

  • L’approche best of breed : vous construisez chaque brique de la stack data en choisissant les meilleurs outils de leur catégorie.
  • L’approche agence : vous confiez la construction de la stack data à un prestataire.
  • L’approche tout-en-un : vous connectez à votre data warehouse un outil de Data Ops capable de gérer l’ensemble des traitements nécessaires à la valorisation des données.

Nous nous focalisons dans cet article sur les stack data modernes. Ces stack data, construites à partir d’outils cloud et d’outils self service (no ou low code) sont moins lourdes, moins chères, moins IT-dependantes que les stack data du passé. Elles deviennent la norme, surtout dans les entreprises les plus matures.

Qu’est-ce qu’une stack data (moderne) ?

Pour comprendre la fonction clé d’une stack data aujourd’hui, il faut partir de ce constat évident : les données, en particulier les données clients au sens large, sont l’un des actifs les plus précieux des entreprises. Sauf que ces données sont généralement sous-utilisées et ne délivrent pas toute la valeur qu’elle détienne.

Pour être pleinement valorisées, les données doivent être correctement connectées, consolidées, nettoyées, préparées, transformées, enrichies et activées dans les outils de destination : CRM, marketing Automation, analytics/BI…

La stack data désigne l’assemblage cohérent d’outils qui sert à réaliser toutes ces opérations, de la connexion des données à leur activation en passant par leur préparation et enrichissement.

stack data moderne
La stack data est une imbrication d’outils au service d’une meilleure exploitation des données par l’entreprise.

A quoi reconnaît-on une organisation data-driven ? Au fait qu’elle dispose d’une stack data moderne ! Avoir une stack data est une condition nécessaire, bien que pas suffisante, pour devenir data-driven.

La stack data facilite la circulation des données dans l’organisation et leur exploitation par les différents utilisateurs finaux.

Les stack data qualifiées de « modernes » ont 2 caractéristiques essentielles qui les distinguent des anciennes stack data. Elles se basent sur :

  • Des solutions cloud, et en particulier un data warehouse cloud servant de pivot, de « hub des données ».
  • Des outils low ou no-code (on parle aussi d’outils self-service) qui permettent de démocratiser l’accès et la manipulation des données.

Les composantes d’une Stack Data Moderne

La stack data moderne est un ensemble d’outils gravitant autour d’un data warehouse construit sur une plateforme cloud. Une stack data moderne contient 5 briques clés, 5 composantes fondamentales qu’on peut désigner par des verbes :

  • Collecter. Une entreprise possède une dizaine, une vingtaine, une trentaine de sources de données. C’est grâce à elles que l’organisation collecte les données sur les différents canaux et aux différentes étapes des parcours clients.
  • Connecter (ou « charger », ou « stocker »). Les sources de données sont connectées à un data warehouse (DWH) cloud qui sert de réceptacle principale des données.
  • Transformer. Les données sont préparées, consolidées, nettoyées, transformées au moyen d’outils spécifiques. Si la transformation des données précède leur chargement dans le DWH, on parle d’outils ETL (Extract-Transform-Load). Dans le cas contraire, de plus en plus fréquent, on parle d’outils ELT (Extract-Load-Transform).
  • Analyser. Les données stockées dans le DWH sont utilisées pour produire des analyses, des reportings, des data visualisations via des outils de Business Intelligence (BI).
  • Activer. Les données du DWH ne servent pas seulement à créer des reportings, elles servent aussi à alimenter les outils d’activation (CRM, marketing automation…), via une solution « Reverse ETL ».

Chacune de ces composantes de la stack data moderne désigne une étape du cycle de vie des données et fait appel à un ou plusieurs outils.

Nous allons vous décrire plus précisément chacune de ces composantes, en vous épargnant la première qui nous amènerait à vous détailler les différentes sources de données utilisées par les entreprises. On va éviter la liste à la Prévert.

Connecter – Charger – Stocker : la place pivot du Data Warehouse

Le data warehouse sert de réceptacle des données. Il met en connexion l’ensemble des sources de données de l’entreprise et permet ainsi de stocker l’ensemble des données de l’organisation dans un même endroit. Comme nous le disions plus haut, le DWH joue le rôle de pivot de la stack data moderne. C’est autour de lui que gravitent toutes les autres composantes. C’est l’émergence de cette nouvelle génération de data warehouse basés dans le cloud qui a permis le développement de la stack data moderne.

Le data warehouse a la capacité de stocker tous types de données. Lorsqu’il permet même de stocker des données non structurées, « en vrac », on parle de « data lake ». D’ailleurs, dans certaines organisations, le data warehouse cloud est construit en aval d’un data lake qui accueille de manière indifférenciée toutes les données générées par les sources.

stack data moderne data lake data warehouse
Source : Qubole.

Comment intégrer les données dans le data warehouse ?

Il existe plusieurs réponses à cette question. Nous vous proposons un panorama des différentes familles d’outils permettant de connecter vos sources de données à votre data warehouse. Découvrez notre panorama des outils d’intégration des données.

Un data warehouse cloud est une solution scalable et puissante. La réduction des coûts de stockage et l’augmentation de la puissance de calcul (qui permet d’exécuter des requêtes SQL sur de gros volumes de données en quelques secondes) sont les deux évolutions majeures sur le marché des data warehouses – évolutions permises grâce au cloud.

Les solutions DWH les plus connues du marché restent celles proposées par les GAFAM :

On observe depuis le début des années 2020 la montée en puissance de « pure players », Snowflake en tête.

Légende : Medium. Mai 2020. Redshift plafonne, BigQuery monte, Snowflake explose.

Voici 2 autres caractéristiques des data warehouses cloud, pour achever de brosser le tableau de cette technologie incontournable :

  • Les DWH sont serverless. Vous n’avez pas à gérer les serveurs. Ils sont fournis et maintenus par l’éditeur.
  • Les DWH sont facturés à l’usage. Vous payez ce que vous utilisez, que ce soit en termes d’espace de stockage ou de puissance de calcul. Certaines solutions, comme Snowflake, facturent distinctement le stockage et le computing, ce qui augmente encore la souplesse tarifaire.

Une introduction à la Stack Data Moderne

Un Data Engineer qui aurait été cryogénisé en 2010 et que l’on réveillerait par malice aujourd’hui ne comprendrait plus grand-chose à la Stack Data Moderne. Heureusement pour lui, il pourrait rapidement se mettre à jour en découvrant notre guide introductif à la Stack Data Moderne. Un article qui complète bien celui que vous êtes en train de lire.

Ingérer : la gestion des pipelines de données via une solution ELT/ETL

La deuxième composante de la Stack Data regroupe l’ensemble des outils qui permettent de faire circuler les données entre les différents systèmes. Et plus précisément : entre les sources de données et le data warehouse.

Une solution ELT ou ETL sert à brancher les sources de données (outils marketing, réseaux sociaux, logs, APIs…) au data warehouse.

Il y a essentiellement deux manières d’intégrer les données :

  • ETL. La première consiste à transformer les données avant de les charger dans le data warehouse. Si bien que les données arrivent bien préparées dans l’entrepôt de données en fonction des règles de modélisation de votre DWH. C’est l’option traditionnelle que l’on appelle ETL : Extract – Transform – Load, qui était utilisée dans les stack data anciennes. On transforme (T) avant de charger (L).
  • EL(T). La deuxième approche, plus moderne et plus souple, consiste à utiliser un outil qui va charger les données dans le data warehouse sans les transformer. Dans ce cas, les transformations des données sont réalisées en aval, soit par le même outil, soit par un autre outil, soit en utilisant les fonctions proposées nativement par l’éditeur du data warehouse. On parle alors d’EL(T).

Dans la famille des outils EL(T), on trouve notamment Stitch ou Fivetran. 2 références. Ces solutions ont développé des connecteurs avec des solutions leaders (Facebook, Salesforce, Google Analytics…) qui vous permettent de connecter vos sources de données à votre entrepôt de données en quelques secondes, via une interface no-code.

stack data moderne stitch connecteurs
Outil EL(T), Stitch Data propose des dizaines et des dizaines de connecteurs natifs pour connecter vos sources de données à votre data warehouse en quelques clics.

Le modèle économique de ces solutions est basé sur le volume de données ingéré, exprimé en nombre d’événements ou en lignes. A noter qu’il existe aussi des outils EL(T) open source, donc gratuits, mais dont la prise en main requiert des compétences IT. Je pense notamment à Airbyte, ou bien au framework Singer, qui propose une belle bibliothèque de scripts écrits en Python pour connecter vos sources au data warehouse. Pour la petite histoire, Stitch utilise le code de Singer pour créer ses connecteurs en 3 clics.

En optant pour un outil ELT payant comme Stitch ou Fivetran, ce que vous payez, c’est l’interface user-friendly et les connecteurs natifs, pas la technologie sous-jacente qui s’appuie généralement sur des frameworks open source. Après, il y a clairement un ROI à utiliser un outil payant, surtout si vous êtes une jeune entreprise et que vous n’avez pas les compétences internes pour utiliser un framework open source. Les connecteurs facilitent quand même vraiment la vie !

Transformer : le nettoyage et la consolidation des données

Avec des outils ETL ou ELT (sans parenthèses sur le « T »), la transformation des données est réalisée par le même outil que celui utilisé pour charger les données dans le data warehouse. Vous avez un même outil qui s’occupe du « L » et du « T ». Un exemple de logiciel ELT ? Weld, par exemple.

Mais la tendance générale consiste à utiliser des outils différents pour ces deux opérations.

Dans une stack data moderne, on a généralement :

  • Un outil EL qui sert à créer les pipelines de données, à charger les données provenant de vos différentes sources dans le data warehouse.
  • Un outil de data prep qui transforme les données de votre data warehouse. Découvrez notre panorama des meilleurs outils de data prepation.

Transformer des données consiste à appliquer aux données chargées dans le DWH un certain nombre de règles et de fonctions adaptées à vos cas d’usage et au design du Data Warehouse. Les opérations de transformation classiques incluent, notamment, le renommage de colonnes, la jonction de plusieurs tables, l’agrégation de données…

Un exemple d’outil ? dbt. Cette solution permet aux data analysts et aux data engineers de transformer les données du DWH beaucoup plus facilement qu’auparavant, via l’édition de codes de transformation SQL. dbt fait partie de ces outils dont on parle beaucoup en ce moment, et à juste titre tant la solution est à la fois simple et puissante. C’est grâce à ce genre d’outils qu’un data analyst peut gérer la transformation des données lui-même, sans avoir besoin de l’appui d’un data engineer ou d’un développeur Python. Précisons que dbt est open source, même s’ils proposent aussi une version payante.

stack data moderne db interface
dbt est l’outil de référence pour transformer les données stockées dans le Data Warehouse, via des scripts SQL.

Il existe quelques concurrents à dbt, notamment :

  • Dataform, récemment acheté par Google Cloud.
  • Databricks, qui a signé un partenariat avec Google Cloud (mais fonctionne aussi sur Azure et AWS).

Passons à l’étape suivante. A quoi servent les données transformées du data warehouse ? A faire deux choses : de l’analyse et de l’activation. Commençons par l’analyse.

Analyser : la solution de DataViz / BI

Les données organisées du data warehouse sont d’abord utilisées pour alimenter un outil de Business Intelligence (BI) qui sert à construire des reportings, des tableaux de bord, des data visualisations, des modèles prédictifs.

L’analyse des données permet de piloter les performances de l’entreprise, d’identifier des tendances, des évolutions, de mieux cerner les parcours clients, de mieux comprendre le comportement des clients, d’identifier la part de chaque canal dans la performance (via des modèles d’attribution) et de manière plus générale d’éclairer les prises de décision.

L’analyse des données s’effectue depuis un outil de Business Intelligence (comme Tableau, Looker, PowerBI ou QlikView), dont l’utilisateur principal est le data analyst. Ces outils permettent de créer des reportings avancés à partir de toutes les données du Data Warehouse auxquelles ils sont connectés via des connecteurs ou des APIs.

Ces outils coûtent relativement cher, sauf Google Data Studio, qui est 100% gratuit. Data Studio est une solution assez puissante, que nous avons beaucoup utilisée dans notre passé de consultants, et qui a l’avantage (par définition) de bien s’intégrer à l’écosystème de Google Cloud. On recommande aussi Metabase, qui est un outil de BI open source.

Un exemple de reporting Data Studio.

Les reportings sont synchronisés avec toutes les sources que vous voulez (votre data warehouse, Google Ads, les réseaux sociaux, des spreadsheets, etc.) et donc mis à jour en temps réel. Les outils de BI ont fait de gros efforts pour proposer des interfaces très simples d’utilisation. Ils proposent des templates de reporting souvent très bien pensés et qui permettent de gagner beaucoup de temps.

Les outils de BI sont aussi appelés « outils de DataViz » ou « outils de Data Visualization » dans le sens où ils permettent de présenter les données de manière visuelle, sous forme de graphiques, de tableaux, de courbes, de charts…

Dashboards ecommerce Google Data Studio

Google Data Studio est une solution de BI gratuite et proposant de nombreux templates personnalisables de bonne qualité. Pour vous en rendre compte par vous-même, nous vous invitons à découvrir notre sélection des 50 meilleurs dashboards ecommerce de Google Data Studio.

Activer : le Reverse ETL pour redistribuer les données à vos outils

Il y a encore quelques années, les données stockées dans le data warehouse n’étaient utilisées que pour faire du reporting et de l’analyse. Le data warehouse servait de socle de la BI. C’était sa seule fonction. Les temps ont changé et l’une des caractéristiques de la stack data moderne est l’avènement de ce qu’on appelle les Reverse ETL.

Un Reverse ETL, comme l’indique son nom, fait l’inverse d’un outil ETL. Un outil ETL charge les données en provenance de vos sources de données dans le data warehouse. Un Reverse ETL est une solution qui sert à extraire les données stockées dans le data warehouse pour les mettre à disposition des outils d’activation / business : CRM, marketing automation, help desk, comptabilité…

Un Reverse ETL permet de mettre les données du data warehouse au service des équipes métiers : marketing, ventes, service client, digital, finance…Il synchronise les données agrégées du DWH dans les applicatifs utilisés au quotidien par le métier.

Avec un Reverse ETL, par exemple, vous pouvez intégrer les données Stripe et Zendesk (préalablement chargées dans le data warehouse) dans votre CRM Hubspot.

Si on avait parlé des Reverse ETL à un DSI des années 2000, il nous aurait ri au nez. Qu’un data warehouse serve à alimenter un CRM (via notre Reverse ETL) était une idée absurde. Le data warehouse était le réceptable des données froides, le CRM et les outils d’activation en général le réceptacle des données chaudes. Mais avec l’avènement de la nouvelle génération de data warehouse cloud, les règles du jeu changent : le data warehouse peut devenir un référentiel opérationnel. Et ça change tout !

A la découverte des Reverse ETL

Le Reverse ETL est le chaînon manquant qui empêchait jusqu’au début années 2020 de synchroniser les données du data warehouse dans les applicatifs métier. Pour en savoir plus sur cette technologie incontournable de la stack data moderne, nous vous invitons à découvrir notre guide introductif sur les Reverse ETL.

Si vous vous allez plus loin, nous vous conseillons de jeter un œil à cette liste de ressources consacrée à la stack data moderne.

3 approches pour construire votre Stack Data

Voici les 3 options qui s’offrent à vous pour construire votre stack data moderne. Pour construire notre tableau, nous avons pris pour hypothèse une entreprise ayant un effectif d’une cinquantaine de personnes.

Best of breedOutsourcée Tout-en-un
Ce dont vous avez besoinAu moins 1 ingénieur analyticsUn budget significatif
  • Un petit budget
  • Un Data/Business analyst (ou un profil Business Ops)
Combien ça coûte ?Environ 500€ par mois pour les outils et quelques mois de votre ingénieur analytics
  • Installation initiale : 10 - 30k€
  • Exploitation : 2 - 5k€ par mois
  • Environ 1 000€ par mois pour les outils
  • Quelques jours de votre Business Analyst
Stack TechnoUn outil comme Fivetran + dbt + BigQuery + MetabaseChoisie par l'agenceUn outil comme BigQuery + Octolis + Metabase

Option #1 – Construire en interne une Stack Data best of breed

La première option consiste à construire votre stack data moderne vous-même en allant chercher le « meilleur » outil de chaque catégorie. Voici les grandes étapes à suivre si vous optez pour cette option :

  • Définir vos objectifs et l’organisation cible. Pour quelles raisons souhaitez-vous déployer une stack data moderne ? Vous devez partir des objectifs de votre organisation et ensuite les décliner en cas d’usage data. Ce travail incontournable d’expression du besoin vous aidera à prendre les bonnes décisions tout au long de votre projet.
  • Choisir les outils de votre stack data. Nous avons passé en revue les principales composantes d’une stack data moderne. Pour chaque composante, il existe plusieurs outils possibles. A vous de choisir ceux qui répondent le mieux à vos objectifs, vos besoins, vos contraintes, votre budget. Ne souscrivez pas un seul abonnement à un logiciel avant d’avoir une vision cible des principaux outils qui constitueront votre stack data. Le choix le plus structurant est celui du data warehouse. Choisissez ensuite votre ETL/ELT, votre outil de data transformation, votre Reverse ETL, votre outil de BI. Vous devez choisir des outils qui se connectent bien entre eux. Le critère de la connectivité est l’un des principaux à prendre en compte. Typiquement, des outils comme Fivetran ou Stitch se valent à peu près, ils font la même chose, la différence réside surtout au niveau des capacités d’intégration, des connecteurs disponibles.
  • Mettre en place les pipelines de données et configurer le data warehouse. L’étape suivante consiste à construire les flux de données entre vos sources de données et votre data warehouse, via votre outil EL(T)/ETL. Vous devez aussi construire le modèle de données de votre data warehouse, c’est-à-dire définir la manière dont les données vont s’organiser dans les tables de votre DWH. C’est sans doute l’étape la plus technique, celle qui nécessite de vraies compétences IT (maîtrise de SQL en particulier).
  • Construire vos premiers reportings. C’est une étape techniquement facile. Les outils de BI proposent des interfaces user-friendly et permettent de connecter les sources de données de manière relativement simple. La difficulté est de construire des reportings intelligents, pertinents, utiles, bien pensés. Si vous n’avez pas besoin de compétences IT pour construire vos premiers rapports, vous devrez en revanche vous entourer de professionnels de la data : en particulier d’un ou de plusieurs data analysts.
  • Définir les process internes. L’avantage d’une stack data moderne, c’est qu’elle est utilisable par presque tout le monde. Mais cela fait naître un risque au niveau de l’intégrité de vos données. Il est donc essentiel de définir des process internes, des règles en matière de traitement des données, de gestion des accès et des droits, de définir des procédures, des rôles, d’établir une documentation, etc. Bref, vous devez poser les bases d’une bonne et saine Gouvernance des Données. Où l’on voit que construire une stack data moderne est un projet autant organisationnel que technique…
  • Définir une roadmap. Nous vous recommandons d’adopter une approche progressive dans le déploiement de votre stack data. C’est un projet suffisamment complexe et chronophage en soi…donc ne cherchez pas à tout transformer d’un coup. Nous pensons en particulier ici aux cas d’usage de la stack data. Ils ont vocation à augmenter avec le temps, à s’enrichir, à s’affiner. Mais ne cherchez pas à les déployer tous en même temps. Commencez par les cas d’usage prioritaires. Nous vous conseillons aussi de mettre en place une bonne direction de projet, avec des instances de pilotage.

Benchmark des outils de la Stack Data Moderne

Vous êtes intéressé(e) par cette option ? Nous vous invitons à découvrir notre benchmark complet des outils de la stack data moderne. Pour chaque famille d’outils (ETL, data warehouse, data prep…), nous vous proposons les meilleures solutions du marché.

Option #2 – Déléguer la mise en place de votre Stack Data à une agence

La deuxième option, plus coûteuse, consiste à déléguer la construction de votre Stack Data à une agence. Voici les étapes à suivre si c’est l’option que vous choisissez :

  • Définir vos besoins. Vous devez construire un cahier des charges solide dans lequel vous formalisez vos objectifs, décrivez votre situation actuelle (notamment l’état de votre écosystème Data/Tech), vos cas d’usage cibles en matière de données. Vous devez être le plus exhaustif et précis possible. Le cahier des charges va vous forcer à bien formaliser l’expression de votre besoin et à la partager à votre agence partenaire. C’est le document qui servira de point de repère tout au long du projet.
  • Choisir l’agence. Il existe des dizaines et des dizaines d’agences data sur le marché. Vous devez choisir celle la plus en phase avec votre besoin, vos attentes, vos contraintes…Nous vous conseillons de tester au moins 3 ou 4 agences. Interrogez-les sur votre projet, vous pourrez les évaluer en fonction de la manière dont elles répondent à vos questions et comprennent votre cahier des charges. Pensez aussi à scruter les références clients des agences ciblées. Nous vous conseillons même de demander aux agences cibles des exemples de cas clients proches du vôtre. Allez même plus loin : demandez à l’agence de vous communiquer les coordonnées d’1 ou 2 clients pour les contacter et leur demander un retour d’expérience.
  • Suivre de près le projet. Il est important de mettre en place des instances de pilotage (points hebdos, CoPil) afin de suivre de près l’avancement du projet, éviter les dérives, contrôler le respect du planning et du budget. La qualité de la communication entre votre entreprise et l’agence est clé si vous voulez obtenir des livrables et des résultats à la hauteur de vos espérances.

Option #3 – Construire en interne une Stack Data via une solution tout-en-un

Nous avons défini la stack data moderne comme une imbrication d’outils. Pour être plus précis, il faudrait parler d’une imbrication de fonctions, dans la mesure où il existe des outils tout-en-un couvrant plusieurs composantes de la stack data.

Un outil comme Octolis par exemple gère à la fois l’ingestion des données, leur modélisation et leur « opérationnalisation », c’est-à-dire la redistribution des données du DWH aux outils de destination. Octolis joue donc à la fois le rôle d’outil EL(T), d’outil de data prep et de Reverse ETL. Nous sommes ce que l’on appelle un outil de « DataOps ».

La troisième option que nous présentons consiste donc à construire votre Stack Data Moderne à partir de deux solutions clés :

  • Un data warehouse cloud.
  • Un outil tout-en-un de « DataOps ».
panorama fonctionnalites octolis
Panorama des fonctionnalités d’un outil de Data Ops comme Octolis.

Cette option a plusieurs avantages :

  • Elle est plus rapide à déployer.
  • Elle est plus simple à déployer et à prendre en main. Pas besoin d’avoir une grosse équipe data, vous n’avez besoin que d’un data analyst ou d’un analytics engineer pour construire les rapports (et vous aider à paramétrer le DWH).
  • Elle est moins coûteuse. Un outil de Data Ops coûte moins cher comparé à l’addition des coûts d’un EL(T), d’un outil de data prep et d’un Reverse ETL.
  • Résultat : le ROI est plus rapide.
  • Enfin, c’est une solution souple et scalable.

C’est l’option que nous recommandions souvent dans notre vie de consultants et c’est pourquoi nous avons développé Octolis. Cette option est particulièrement recommandée pour les entreprises de mid-market (PME) qui n’ont ni les grosses équipes data nécessaires pour construire une stack data best of breed ni le budget pour confier le travail à une agence.

Si vous choisissez cette option, voici schématiquement les étapes à suivre :

  • Définir les besoins. Dans cette option comme dans les autres, il faut commencer par formaliser les objectifs, les besoins métiers et les cas d’usage de la stack data. C’est la base de tout projet data !
  • Choisir un data warehouse et une solution Data Ops. Dans cette option d’organisation, les deux outils clés sont le data warehouse, réceptacle des données, et l’outil de Data Ops qui va servir à réaliser la plupart des opérations sur les données que nous avons décrites dans la première section de l’article.
  • Installer la stack data à partir de la solution de Data Ops. C’est dans la solution de Data Ops que vous allez connecter vos sources à votre data warehouse, préparer les données (nettoyage des données, consolidation, enrichissement, agrégation) et synchroniser les données agrégées dans les outils de destination.
  • Construire les premiers rapports, en utilisant un outil de BI comme Metabase ou Data Studio. Vous allez avoir besoin de quelques jours de travail de votre data analyst pour produire les rapports clés. Ne construisez pas une usine à gaz, concentrez-vous sur les quelques rapports prioritaires pour le suivi de votre activité.
  • Définir la roadmap et les process internes. Même commentaire que pour l’option 1. Définissez une roadmap de déploiement et d’évolution de votre stack data et mettez en place une gouvernance des données pour préserver l’intégrité de la stacj, des données, et encadrer l’utilisation des outils.

Le choix de la méthode de construction de votre stack data doit être en adéquation avec la taille de votre entreprise, vos cas d’usage cibles, vos contraintes (IT, budgétaires) et les caractéristiques de l’organisation (taille de l’équipe data).

Les trois options que nous vous avons présentées ont chacune leur intérêt. Nous sommes convaincus que la troisième est celle qui convient le mieux aux entreprises mid-market : les startups dans leur première phase de croissance et les PME ayant une maturité data intermédiaire et une équipe data réduite à 1 ou 2 personnes.

Le guide pour structurer la fonction Data / Analytics en startups

Toutes les startups ont conscience que leur croissance doit s’appuyer sur une fonction Data / Analytics solide. De la conviction à la mise en œuvre, il y a un gouffre 🙂

Beaucoup de jeunes entreprises ont tendance à vouloir brûler les étapes, des décisions qui peuvent avoir des répercussions négatives sur leur développement, des héritages dont il est ensuite difficile de se débarrasser.

Il ne s’agit pas de savoir quelles sont les métriques à suivre (il y a beaucoup de bons articles à ce sujet), mais de savoir comment amener votre entreprise à les produire. Il s’avère que la question de la mise en œuvre – comment construire une entreprise qui produit des données exploitables – est en réalité  beaucoup plus difficile à résoudre.

Dans cet article, largement inspiré de cet excellent post de Tristan Handy, foundateur de dbt, nous apportons des réponses concrètes afin de construire la fonction data / analytics à chaque étape de développement de votre organisation.

data analytics startups etapes
Source : thinkgrowth.org

#1 – Phase de création [0 – 10 employés]

Que faut-il absolument mesurer à ce stade ? Théoriquement, vous pourriez mesurer des tonnes de choses, mais vous êtes si proche du cœur de votre activité que vous parvenez à prendre les bonnes décisions à l’instinct.

Les seules métriques qui comptent à ce stade, sont liées à votre produit. Pourquoi ? Car ces métriques vont vous permettre d’itérer plus rapidement pour identifier les axes d’amélioration, faire les bons ajustements qui vous permettront de vous rapprocher du Product / Market Fit. Toutes les métriques qui ne concernent pas directement votre produit sont secondaires !

Ce qu’il faut faire

  • Installer Google Analytics sur votre site internet via Google Tag Manager. Les données ne seront pas parfaites, mais ne perdez pas de temps dans des paramétrages compliqués, ce n’est pas la priorité.
  • Si vous créez un business e-commerce, vous devez vérifier que les données liées à votre site de vente en ligne remontent bien dans Google Analytics. GA est un bon outil pour tracker une activité e-commerce et le parcours de vos clients de la visite à l’achat, donc prenez le temps de vérifier que tout fonctionne bien.
  • Si vous éditez un logiciel ou une application, vous devez absolument tracker les événements. Peu importent les outils que vous utilisez, que ce soit Segment ou Mixpanel. À ce stade, nous vous conseillons d’utiliser les paramétrages par défaut proposés par votre outil. Cette approche n’est pas très scalable, mais pour le moment ça fera le job.
  • Si votre business model est basé sur la soubscription avec des revenus récurrents, utilisez un outil comme Baremetrics pour suivre les métriques d’abonnement.
  • Construire un reporting financier en utilisant un outil comme Quickbooks.
  • Pour votre prévisionnel, utiliser Google sheets.

Si vous n’avez pas de compétences techniques, vous aurez sûrement besoin d’un petit accompagnement pour Google Analytics et la mise en place du tracking des événements. Cela ne doit pas prendre plus de deux heures, mais il faut que ce soit bien fait.

Ce qu’il ne faut pas faire

C’est simple : vous devez uniquement vous concentrer sur les points listés plus haut et ne pas chercher à mesurer autre chose pour le moment. Ne laissez personne vous convaincre d’investir dans un Data Warehouse ou dans un outil de BI. Ne faites pas appel à des consultants. Restez focus sur l’essentiel.

Si vous vous lancez tout de suite dans des projets analytics compliqués, vous vous engagez dans un chantier que vous ne pourrez pas mettre en pause, car les données, l’activité et les objectifs de l’entreprise vont constamment évoluer. Attendez avant de construire un dispositif analytics plus élaboré.

Beaucoup de questions qui resteront sans réponse, et c’est très bien comme ça (pour l’instant).

#2 – Phase d’amorçage [10 – 20 employés]

Votre équipe commence à s’étoffer et ces nouveaux collaborateurs ont besoin de données pour faire leur travail. Tous ne sont pas experts en données, mais vous devez vous assurer que les basiques soient réalisés dans les règles de l’art.

Ce qu’il faut faire

  • Vous avez probablement recruté un marketer, assurez-vous qu’il maîtrise GA. Tous les liens utilisés dans vos campagnes marketing doivent être trackés par des balises UTM. Votre responsable marketing doit faire en sorte que les sous-domaines ne soient pas trackés deux fois. Il existe des tonnes de ressources pour apprendre à utiliser Google Analytics, il est très facile de se former rapidement.
  • Si vous avez un ou deux commerciaux, installer un CRM est très vite nécessaire. 2 options ici :
    • Utiliser un CRM léger comme Pipedrive. Si vous choisissez cette option, nous vous invitons à découvrir les 10 meilleurs CRM pour TPE/PME. Vous devriez y trouver votre bonheur.
    • Construire un CRM maison en utilisant un template Notion. C’est l’option que nous vous recommandons. Pourquoi ? Parce que migrer d’un CRM léger à un CRM plus costaud est chronophage et complexe. En attendant d’être plus structuré sur la partie « Sales », Notion est une excellente alternative aux CRM légers « sur l’étagère ».
data analytics startups outil notion crm
Exemple de template CRM via Notion
  • Vous avez probablement recruté quelques CSM pour gérer la relation avec premiers clients. Les reportings proposés par les plateformes d’help desk sont souvent assez pauvres. Adaptez-les en ajoutant les bons KPIs, ceux qui font sens pour votre activité.
  • Mesurer la satisfaction de vos premiers clients. C’est absolument clé pour améliorer votre produit et assurer sa croissance. Mesurez le Net Promoter Score (NPS) et/ou le Customer Satisfaction Score (CSat) en utilisant un outil comme Delighted, Qualtrics, Hotjar, voire Typeform.

Ce qu’il ne faut pas faire

Il est encore trop tôt pour investir dans un Data Warehouse ou pour faire de l’analytics via SQL. Vous n’avez pas encore les équipes suffisantes et cela vous consommera trop de bande passante. Vous en êtes encore à un stade où vous devez passer le plus clair de votre temps à agir, à faire, plutôt qu’à analyser.

Contentez-vous pour le moment des reportings préconstruits proposés par les outils SaaS. Dernière chose, n’embauchez pas de data analyst à plein temps, votre argent sera mieux investi ailleurs.

#3 – Early Stage [20 – 50 employés]

C’est là que les choses commencent à devenir intéressantes. Vous avez levé des fonds en série A et dépassé les 20 collaborateurs. De nouvelles options commencent à s’ouvrir à vous. Vous pouvez commencer à structurer une infrastructure data et à vous équiper de solutions plus avancées, plus flexibles, plus scalables.

Il s’agit de la phase la plus critique : prometteuse si vous faites les choses bien, compromettante pour l’avenir de votre entreprise si vous gérez mal le changement de vitesse.

Ce qu’il faut faire

  • Mettre en place une infrastructure data. Vous allez être amené à choisir entre 2 approches :
    • L’approche Best of Breed qui consiste à construire soi-même sa stack data en choisissant les outils qui correspondent le mieux. Cela signifie, concrètement, investir dans :
      • Un Data Warehouse, comme Snowflake ou Redshift. Le DWH sert de base de données principale. Il centralise, consolide et unifie toutes les données de votre startup.
      • Un outil ETL, comme Stitch ou Fivetran.
      • Un outil d’intégration de données : Census ou Zapier par exemple.
      • Un outil de BI, comme Metabase ou PowerBI.

Benchmark outils de la stack data moderne

Nous vous invitons à découvrir notre Benchmark complet des outils de la stack data moderne.

    • L’approche packagée / data operations hub, qui consiste à choisir un outil tout-en-un (comme Octolis!), fonctionnant en surcouche de votre data warehouse et permettant de déployer facilement vos cas d’usage métiers.

data analytics startups architecture data operations hub octolis

Architecture type de la Stack Data Moderne

Un dispositif data « moderne » consiste à placer le data warehouse (DWH) au centre de votre infrastructure data. En amont, le data warehouse est alimenté par les différentes sources de données via des pipelines ETL ; en aval ces données sont redistribuées sous forme d’agrégats à vos outils métiers via un Reverse ETL. Votre outil de BI se connecte à la même source unique de vérité : votre DWH.

  • Embaucher 1 data analyst. Par la suite, vous aurez besoin de constituer une équipe Data/Analytics avec des data engineers, des data analysts, des data scientists…Mais pour le moment, vous avez seulement les moyens d’embaucher un data analyst à temps plein. Alors, ne faites pas d’erreur, prenez le temps qu’il faut pour trouver la bonne personne. Il faut que la personne que vous recrutez soit capable de vous délivrer de la valeur dès sa prise de poste. Ce sera aussi cette personne qui gérera les futurs recrutements pour constituer votre équipe data. Elle en constituera la colonne vertébrale. Choisissez une personne capable de retrousser ses manches et de mettre les mains dans le cambouis, mais privilégiez surtout quelqu’un qui sait faire parler les données et qui pense « business ».
data analytics startups data analyst vs data engineer vs data scientist
Les 3 pôles de compétences des métiers de la data. Pour un premier recrutement, il faut cibler un profil à l’aise avec la technique (capable de gérer des pipelines de données, par exemple) mais aussi et surtout ayant de bonnes compétences d’analyse et une compréhension des enjeux business.
  • Envisager de faire appel à un consultant. Une fois que vous aurez recruté votre data analyst, soyez conscient que cette personne n’aura pas l’expertise nécessaire pour maniupler / gérer toutes les composantes de votre stack data. Or, commettre des erreurs à cette étape de développement peut se révéler très coûteux par la suite. Il est important de bien poser des fondations saines, c’est là-dessus qu’un accompagnement peut avoir du sens.

Ce qu’il ne faut pas faire

  • Il n’est pas encore temps d’embaucher un data scientist, même si le machine learning est au cœur de votre produit. À ce stade, vous avez besoin d’un profil généraliste qui aura la responsabilité de constituer l’équipe data/tech de votre start-up.
  • Ne construisez vos propres pipelines ETL. C’est une perte énorme de temps. Optez pour un logiciel sur l’étagère comme Stitch ou Fivetran, c’est simple et efficace.
  • Pour votre Data Warehouse, ne cherchez pas à faire des économies en construisant une base de données en Postgres. Ce n’est pas beaucoup moins cher que d’opter pour une solution cloud sur l’étagère, mais vous perdrez en revanche un temps fou quand vous devrez migrer votre BDD – et vous devrez le faire à un moment ou à un autre car Postgres est beaucoup moins scalable qu’une solution Data Warehouse Cloud.

#4 – Phase intermédiaire [50-100 employés]

Cette étape est potentiellement la plus complexe à gérer. Vous avez encore une équipe et des ressources (relativement) limitées, mais vos équipes business ont de plus en plus besoin de métriques solides.

Ce qu’il faut faire

  • Mettre en place des process solides pour gérer les modèles de données et sécuriser la transformation des données. Les modèles de données, c’est-à-dire la manière d’organiser les données dans votre base de données, sont dictés par les besoins métiers et les finalités business. Tous les utilisateurs des données doivent pouvoir faire évoluer les modèles de données. Ils doivent aussi pouvoir transformer les données. Mais, par sécurité et pour éviter tout problème, assurez-vous qu’un système de contrôle de version est utilisé et mettez en place un environnement de transformation transparent. Il existe des outils spécialement conçus pour ça, notamment dbt.
  • Migrer votre web analytics et votre event tracking sur une solution comme Snowplow Analytics ou Jitsu. Ces outils permettent de faire la même chose que les outils payants, mais ont l’avantage d’être open source. Pourquoi faire ce changement ? Pour être en capacité de collecter des données plus granulaires et pour éviter de payer des licences exorbitantes (plusieurs centaines de K€ par mois…) à Segment, Heap ou Mixpanel.

Quelle solution de web analytics choisir ?

Les solutions de web analytics sur l’étagère sont très abordables, voire gratuites, dès lors que vous avez de petits volumes de données. Mais les tarifs augmentent très rapidement avec la croissance du volume de données géré (calculé en nombre d’utilisateurs ou en nombre d’event trackés).

Nous avons produit une ressource Notion sur les alternatives à Segment dans laquelle on présente (notamment) les principales solutions de web analytics open source du marché.

data analytics startups solution web analytics open source
👉 J’accède directement à la ressource

  • Faire grandir votre équipe data intelligemment. Le cœur de votre équipe data doit être constitué d’analystes ayant une sensibilité business forte – c’est-à-dire des personnes expertes en SQL, qui maîtrisent parfaitement l’outil de BI mais qui passent aussi beaucoup de temps à faire le pont entre les équipes data « pures » (les data engineers) et les équipes métier/business. Dans une startup, la donnée est au service du business. La capacité de dialogue entre votre équipe data et les équipes métier reposent en partie sur votre capacité à recruter le ou les bons « business analysts ». C’est aussi à ce stade de développement de votre startup que vous allez pouvoir (enfin) recruter un data scientist.
  • Commencer à construire des modèles prédictifs. Vous pouvez commencer à utiliser des modèles prédictifs simples. Par exemple, si vous êtes un éditeur de logiciel SaaS, vous avez intérêt à déployer un modèle de prédiction du churn. Si vous êtes un e-commerçant, vous pouvez commencer à travailler sur un modèle de prévision de la demande. A ce stade, vos modèles prédictifs ne seront pas forcément très sophistiqués, mais ce sera déjà une énorme avancée par rapport aux tableurs google sheet bricolés par le département Finance 🙂
  • Consacrer du temps et de l’énergie à l’attribution.. C’est un sujet qui mériterait tout un article, mais disons simplement ici que c’est un chantier clé que vous ne pouvez pas confier à un tiers. Pour mesurer finement la contribution des différents canaux marketing, vous devez mettre en place des modèles d’attribution. Vous pouvez commencer par utiliser les modèles standards (ceux proposés par les outils analytics) avant de vous lancer dans la construction d’un modèle sur-mesure.

Ce qu’il ne faut pas faire

Arrivé à cette phase de développement de votre startup, le risque est de s’emballer et d’investir dans une grosse infrastructure data. Ne faites pas cette erreur ! Non seulement ce serait se lancer dans un projet inutilement coûteux, mais aussi qui dit infrastructure lourde dit perte d’agilité. Voici quelques conseils pour que votre startup reste agile :

  • Exploiter toute la puissance de votre Data Warehouse. N’hésitez pas à booster votre abonnement, à augmenter les ressources de calcul activées, à augmenter l’espace de stockage. Vous pouvez vous le permettre et ça ne vous coûtera pas très cher.
  • Utiliser des Jupyter Notebooks pour les travaux de Data Science. Si vos données sont déjà pré-agrégées dans votre entrepôt de données, vous n’aurez pas encore besoin de le faire sur Spark ou un cluster Hadoop.
  • Trouver des solutions low-cost pour créer des pipelines ETL sur les sources données sans connecteurs. Utilisez un ETL open source, par exemple Singer.

#5 – Phase de croissance [150 – 500 employés]

Ici, tout l’enjeu est de mettre en place des process analytics scalables. Vous devez trouver un équilibre entre obtenir des réponses dont vous avez besoin aujourd’hui et mettre en œuvre des process analytiques qui s’adapteront à la croissance de votre équipe.

Ce franchissement de seuil appelle des changements dans les manières de travailler. Si vous ne réussissez pas à gérer correctement ce changement, vous verrez que vous deviendrez de moins en moins efficace à mesure que votre équipe grandira. « Plus » deviendra égal à « moins »: votre équipe sera plus nombreuse mais réussira moins bien à « faire parler les données ». Elle deviendra moins efficace. Voici ce qu’il faut faire pour éviter cette situation.

Ce qu’il faut faire

  • Faire du data testing. Vous avez maintenant des flux de données qui alimentent votre Data Warehouse et qui proviennent d’une dizaine de sources a minima. Vous allez devoir mettre en place des process pour vous assurer que les données qui entrent dans l’entrepôt continuent d’être conformes aux règles que vous avez fixées : unicité des données, absence de champs nuls, etc. Si vous n’avez pas de process qui contrôlent la manière dont les données sont chargées dans le Data Warehouse, c’est la qualité des données qui est en péril, et in fine la qualité des analyses produites à partir d’elles. dbt propose une fonctionnalité intéressante pour tester vos données et vérifier qu’elles sont organisées comme vous le souhaitez.
  • Documenter tout ce que vous faites. L’environnement data de votre entreprise est devenu complexe. Le seul moyen pour gérer efficacement tout cet actif et faciliter l’exploitation des données par tous consiste à investir du temps et de l’argent dans la documentation. Si vous ne le faites pas, vos data analystes passeront plus de temps à chercher où sont les données et comment les utiliser qu’à faire un travail d’analyse.

Ce qu’il ne faut pas faire

Votre startup collecte maintenant des volumes importants de données. Pour cette raison, faire des analyses est devenu plus difficile. Cela nécessite d’avoir à disposition une équipe composée de talents, de gens motivés, prêts à se former pour acquérir de nouvelles compétences.

Le code reviews, qui consiste à vérifier la bonne santé d’un code informatique et à identifier les éventuels bugs, est une activité qui consomme du temps et de l’énergie. Les data analystes n’ont pas forcément l’habitude de faire des code reviews. La documentation des données et des traitements est aussi quelque chose de pénible en soi. Certains membres de l’équipe montreront peut-être des réticences, mais la complexication des données, de l’infrastructure, de l’organisation impose des adaptations et la mise en place de process plus rigoureux.

Il faut réussir à le faire comprendre à votre équipe et ne pas transiger sur ce point ! In fine, ces process rendront le travail d’analyse plus simple, plus rapide et plus fiable. C’est leur implémentation qui est une étape un peu pénible à passer.

Conclusion

La fonction Data / Analytics de votre startup va se construire progressivement. Elle doit se construire progressivement. Mettre la charrue avant les bœufs est le plus sûr moyen de foncer dans le mur. Si vous suivez les étapes dans l’ordre, sans précipitation, vous ferez de l’exploitation de vos données un avantage compétitif important.

Recommandation de produits ecommerce : Méthode & Outils

La recommandation de produits est l’un des moyens les plus simples pour augmenter le panier moyen et, au-delà, le chiffre d’affaires de votre ecommerce. Dites-vous bien que 35% des ventes d’Amazon sont générées grâce à des recommandations proposées sur la plateforme et par email.

On sait en plus que les clients aiment les recommandations de produits. On estime que 56% des clients sont plus susceptibles de revenir sur le site s’il offre des recommandations de produits.

On est donc dans un modèle gagnant-gagnant.

Et pourtant, il y a encore beaucoup d’ecommerçants qui n’ont pas sauté le pas.

C’est dommage, car les technos sont là. Il existe aujourd’hui de très bons logiciels bon marché proposant des moteurs de recommandations avancés. Contrairement à ce qu’on pense souvent, la recommandation de produits n’est pas quelque chose de très complexe. Pas d’usine à gaz, on peut commencer par des choses simples et rapides à déployer.

C’est ce constat qui nous a donné l’idée de vous concocter un article complet sur le sujet.

La recommandation de produits : un puissant levier de performance ecommerce pas assez exploité

La recommandation de produits ecommerce, c’est quoi ?

Comme on dit souvent, une image vaut mieux que mille mots. Voici une capture d’écran du site de prêt à porter Asos, plus précisément : d’une page produit. Sous la description du produit, Asos propose des recommandations de produits similaires :

recommandation produits ecommerce

La recommandation de produits en ecommerce, c’est tout simple, c’est ça. Tout le monde, en tant que consommateur, a déjà été confronté à ce type de recommandations.

Il existe plusieurs manières de faire de la recommandation de produits en ecommerce.

On distingue en effet les approches suivant :

  • Ce sur quoi on se base pour sélectionner les produits recommandés :
    • Les contenus consultés par le client : « Vous avez consulté ce produit ? Alors ce produit pourrait vous intéresser ! ».
    • Les autres produits consultés par les clients ayant consulté le produit que je consulte : « Les clients qui ont consulté ce produit ont aussi consulté ces produits ». Nous présenterons ces deux approches dans la prochaine partie.
    • Mais il est possible aussi de recommander les produits les plus achetés, des produits souvent achetés ensemble (produits complémentaires), les produits tendances, les produits les plus consultés, etc.
  • Le moment et le canal où on propose les recommandations : pendant le parcours de découverte sur le site ecommerce, pendant le check out ou bien après la visite sur le site (email marketing). On y reviendra, mais retenez ceci : on peut recommander des produits à toutes les étapes des parcours clients.

Amazon est sans aucun doute le maître de la recommandation de produits. Nous l’avons dit, c’est cette approche, cette technique qui, entre autres, a permis au géant américain de devenir ce qu’il est. Ne vous étonnez pas si on utilise souvent des exemples d’Amazon pour illustrer notre article. Signalons d’ailleurs, en passant, que la recommandation de produits n’est pas une problématique limitée au ecommerce. Pensez à Netflix par exemple et à ses recommandations de films ou séries.

Ne pas faire de recommandations de produits quand on est ecommerçant, c’est se priver d’un énorme levier du business.

Comprendre et mettre en place un Scoring Client

Le scoring client permet de prioriser vos budgets marketing pour les clients les plus susceptibles d’acheter, et de mieux segmenter votre fichier client pour obtenir de meilleures performances dans vos campagnes. Découvrez notre guide complet sur le Scoring Client : définition, exemple et méthode en 5 étapes.

Comment fonctionne un moteur de recommandations produits ?

Vous avez un site ecommerce. Vous voulez faire de la recommandation de produits. Comment s’y prendre ? Il y a l’approche « à la mano » qui consiste à prendre chaque produit de votre catalogue et à définir les produits qui peuvent être recommandés pour ce produit :

  • Produit A : produits à recommander = Produits B, D, H, Y.
  • Produit B : produits à recommander = Produits A, H, M, V.
  • Produit C : produit à recommander = Produits Z.
  • Etc.

C’est une méthode très fastidieuse, surtout si vous avez un gros catalogue. L’alternative consiste à mettre en place ce qu’on appelle un « moteur de recommandations ». C’est un outil, plus précisément un algorithme, qui permet d’automatiser les recommandations en fonction des données qui l’alimentent et des règles que vous configurez en phase de paramétrage.

Il existe 3 approches pour construire un moteur de recommandations.

Approche #1 – Une méthode de filtrage selon les contenus (pages vues, rubriques consultées, etc.)

Le moteur recommande des produits basés sur l’historique de navigation et sur l’historique d’achat. On parle parfois de « recommandation objet » ou de modèle « content based ». L’idée sous-jacente à cette approche, c’est que si vous aimez un produit (vous avez consulté la page du produit, vous l’avez ajouté à votre panier, voire vous l’avez déjà acheté), alors vous devriez aimer les produits similaires ou complémentaires.

Sur le site web, bien entendu, vous ne pouvez baser les recommandations sur l’historique d’achat que si le client est identifié. Mais cette méthode de filtrage des produits recommandés peut fonctionner sur les visiteurs anonymes grâce aux cookies de navigation. Voici un exemple des recommandations proposées par Amazon sur sa page d’accueil aux visiteurs anonymes :

recommandation produits ecommerce filtrage base sur le contenu

Approche #2 – Le filtrage collaboratif

Dans ce cas, l’algorithme du moteur de recommandations utilise les données des autres visiteurs ou clients du site. On parle parfois de « recommandation sociale » ou « user based ». Si vous visitez la page du produit A, le moteur va pouvoir vous recommander :

  • Soit des produits que les autres visiteurs de la page produit A ont aussi visité.
  • Soit des produits que les clients qui ont acheté le produit A ont aussi visité ou acheté.
recommandation produits ecommerce filtrage collaboratif
Source : indatalabs.com

C’est une présentation schématique bien sûr, mais l’idée à retenir est que cette approche consiste à baser les recommandations sur le comportement de navigation et/ou d’achat des autres visiteurs ou clients.

Voici un autre exemple tiré d’Amazon et qui illustre cette approche :

recommandation produits ecommerce filtrage collaboratif exemple

Approche #3 – La méthode hybride

Comme son nom l’indique, cette approche consiste à mixer les deux précédentes. Le moteur sélectionne les produits recommandés en fonction des données relatives aux autres utilisateurs ET en fonction d’attributs spécifiques au visiteur. Dans un autre univers, c’est l’approche mise en place par Spotify pour sa playlist « Découvertes de la semaine », qui propose des musiques en fonction des morceaux que vous avez écoutés mais aussi en fonction des utilisateurs ayant écouté les mêmes morceaux que vous.

recommandation produits ecommerce exemple spotify

L’approche hybride est celle qui permet de proposer les recommandations les plus pertinentes, mais c’est aussi la plus complexe à mettre en œuvre.

Les bénéfices de la recommandation de produits en ecommerce

Mettre en place un moteur de recommandations de produits sur votre site vous coûtera de l’argent. C’est un investissement. Pour quel retour ? Parlons justement du retour sur investissement de la recommandation de produits. Ils sont multiples.

#1 Augmenter l’engagement client

Nous l’avons rappelé en introduction, les clients aiment qu’on leur recommande des produits. De manière plus générale, ils aiment vivre une expérience client « personnalisées ». En marketing, la personnalisation est toujours payante. Etre en capacité de proposer des produits personnalisés, pertinents, contribue à enrichir l’engagement des clients.

Si Netflix a séduit des millions d’utilisateurs, c’est grâce à son algorithme de recommandations. Pas besoin de chercher des heures dans le catalogue de films et de séries : on vous propose sur un plateau les contenus vidéos qui sont susceptibles de vous intéresser.

#2 Booster les performances de votre newsletter

Les recommandations de produits, cela se passe sur le site ecommerce comme on l’a vu, mais aussi dans les emailings, dans la newsletter. Nous en reparlerons tout à l’heure.

Proposer des produits personnalisés est le must pour une newsletter ecommerce. Cela vous aidera à générer :

  • Plus d’inscriptions à la newsletter, si vous précisez dans le formulaire de capture que votre newsletter propose des produits personnalisés. « Inscrivez-vous à notre newsletter pour découvrir des produits que vous aimez ! ».
  • Plus de conversions sur votre site ecommerce. En intégrant des recommandations de produit dans votre newsletter, vous générez plus de ventes sur votre boutique en ligne, vous faites de l’emailing un puissant canal de vente.

Mesurer et améliorer la lifetime value

Il y a un énorme paradoxe autour de la lifetime value : c’est sans aucun doute l’indicateur business le plus important, notamment en ecommerce…et pourtant seulement une minorité d’entreprises l’utilisent. Découvrez notre guide complet sur la lifetime value, ce que c’est, comment l’utiliser, comment l’améliorer.

#3 Réduire les abandons de panier

Les abandons de panier sont la bête noire des ecommerçants. Réduire les abandons de panier devrait être un objectif prioritaire pour les acteurs du ecommerce. Les recommandations de produit sont une technique pour l’atteindre.

Il existe plusieurs tactiques possibles. Par exemple, vous pouvez utiliser une exit popin présentant des produits personnalisés pour inciter les visiteurs à rester sur le site et à acheter.

recommandation produits ecommerce exit popin

Les exit popins sont très efficaces pour limiter les rebonds. Vous pouvez aussi les utiliser pour offrir des réductions, offrir la livraison, etc. Bref, il existe plein de solutions pour empêcher qu’un visiteur qui a ajouté un produit dans son panier ne parte pas sans avoir finalisé sa commande.

#4 Gagner du temps

Suggérer des produits, faire du cross-selling ou de l’upselling de manière manuelle est quelque chose de très chronophage. Et, en faisant comme ça, pas sûr que vous tombiez toujours juste et que vous recommandiez des produits pertinents. Mettre en place un moteur de recommandations permet de soulager à la fois les équipes marketing et les équipes commerciales.

Tout ce que vous avez à faire, c’est paramétrer le moteur de recommandations, l’alimenter avec les bonnes données, mettre en place les règles, etc. Une fois que c’est fait, le moteur « tourne » tout seul et propose à votre place des recommandations à vos visiteurs et ou clients.

Donc, non, il ne faut pas prendre peur, il ne faut pas se dire « un moteur de recommandations, c’est du machine learning, c’est de l’IA, c’est hyper-complexe à créer ». En réalité, ce n’est pas un projet si complexe que ça, car il existe des outils qui permettent de déployer avec facilité des moteurs de recommandations personnalisées. Nous en présenterons quelques-uns tout à l’heure.

2 chiffres à retenir :

  • Près d’un tiers des revenus ecommerce sont générés grâce aux recommandations de produits. Cela représente 12% des achats totaux.
  • Le taux de conversion des visiteurs qui cliquent sur une recommandation de produits est 5,5 fois plus élevé que celui des autres clients.

Mettre en place la recommandation de produits ecommerce tout au long des parcours clients

Vous pouvez recommander des produits à vos clients tout au long de leur parcours, c’est-à-dire :

  • Pendant la phase de recherche/découverte des produits sur le site.
  • Pendant la réalisation de la commande (le check out).
  • Après une visite sur le site ecommerce (emailing et remarketing).

#1 La recommandation de produits en phase de découverte sur le site

Voici la situation : un internaute visite un site ecommerce, le parcourt, recherche et découvre des produits. Vous pouvez lui recommander des produits complémentaires ou similaires pendant ce parcours, l’objectif étant de l’inciter à ajouter plus de produits à son panier et/ou de l’aider à trouver le bon produit pour lui, lui faire gagner du temps.

Ces recommandations peuvent être poussées sur les pages produits. Voir l’exemple d’Asos donné en début d’article, mais aussi et surtout (à tout seigneur tout honneur) l’exemple d’Amazon qui est historiquement le premier acteur du ecommerce à avoir massivement utilisé cette technique.

Voici un autre exemple (Mango) :

recommandation produits ecommerce exemple mango

Sur beaucoup de sites ecommerce, vous trouverez des recommandations sur les pages produits. C’est devenu une pratique standard. Encore une fois, la nature des recommandations peut varier. Cela peut être :

  • Les produits similaires
  • Les produits achetés par les autres clients du produit sur la page duquel vous êtes
  • Les best-sellers
  • Les produits tendances
  • Les produits les mieux notés
  • Etc.

Mais vous pouvez aussi « pousser » vos recommandations sur d’autres pages : sur la page d’accueil (voir l’exemple d’Amazon cité plus haut), sur les pages catégories, voire sur les pages d’erreurs 404. Pourquoi pas ?

Il est possible aussi de proposer des recommandations de produits dans des bannières ou dans des popups : voir l’exemple d’exit popin présenté plus haut.

#2 La recommandation de produits pendant le check out

Votre visiteur a ajouté des produits à son panier et s’apprête à finaliser sa commande. C’est le moment de lui proposer d’autres produits pour l’inciter à ajouter plus de produits dans son panier. C’est ce que fait très bien…Amazon…encore lui ! J’ajoute un MacBook à mon panier, Amazon me propose d’ajouter des produits complémentaires avant de passer la commande.

recommandation produits ecommerce exemple amazon

Les recommandations de produits qui fonctionnent le mieux pendant le check out sont :

  • Les produits complémentaires ou les accessoires. Par exemple : proposer un logiciel antivirus ou une sacoche à un visiteur qui s’apprête à finaliser la commande d’un ordinateur. Cela suppose d’être en capacité de bien établir les relations entre vos produits dans votre Product Information System (logiciel PIM). C’est techniquement plus complexe que de proposer des produits similaires.
  • Les produits fréquemment achetés ensemble. Ici, vous pouvez utiliser le filtrage collaboratif.

#3 La recommandation de produits post-visite sur le site ecommerce

A partir de maintenant, on quitte le site ecommerce. Il n’y a pas que sur votre boutique en ligne que vous pouvez proposer des recommandations de produits. Vous pouvez aussi le faire :

  • Dans des campagnes ou scénarios email.
  • Avec du remarketing.

Les campagnes et les scénarios email

Vous ne pouvez pas solliciter les visiteurs anonymes de votre site ecommerce par email. Par définition. Vous n’avez pas leur adresse email. La sollicitation par email n’est possible que sur les clients ayant déjà acheté ou sur les visiteurs inscrits à votre newsletter.

L’email est un excellent canal pour envoyer des recommandations de produits. Il y a plusieurs approches possibles :

  • La newsletter promotionnelle, dont nous avons déjà parlé plus haut. Vous pouvez personnaliser les recommandations en fonction des informations que vous avez sur vos contacts : données socio-démographiques (âge, genre), historique d’achat, préférences exprimées…Mais vous pouvez aussi utiliser la newsletter pour recommander vos meilleurs produits, vos nouveaux produits, vos produits en promotion, etc.
  • L’email de relance de panier abandonné. Là, on s’inscrit dans un scénario et non dans une campagne. La mécanique consiste à envoyer un email automatique de relance de panier abandonné aux clients identifiés n’ayant pas finalisé leur achat. L’email de relance rappelle le contenu du panier, incite à le finaliser, mais peut aussi proposer des produits similaires ou des alternatives. Bref, des recommandations de produits.
  • Les emails transactionnels de type confirmation de commande ou confirmation d’expédition sont aussi de bons moments pour pousser des recommandations de produits et inciter vos clients à acheter à nouveau.

Le remarketing

Un client visite en général plusieurs sites ecommerce et consulte entre 8 et 19 produits avant de prendre sa décision d’achat. Le remarketing est une technique bien connue qui consiste à afficher des bannières de publicité présentant vos offres et vos recommandations sur d’autres sites que le vôtre. Je visite le site A. Je quitte le site A et je me rends sur le site B. Sur le site B, pendant ma navigation, je vois s’afficher une bannière me présentant des produits du site A (ceux que j’ai consultés ou des produits similaires). Tout le monde fait quotidiennement ou presque cette expérience. Le site B peut d’ailleurs être (et est souvent) un réseau social : Facebook par exemple.

Quel outil choisir pour mettre en place la recommandation de produits ?

Il existe essentiellement deux familles d’outils permettant de configurer un moteur de recommandations et de recommander des produits à vos clients, que ce soit sur le site web ou dans vos campagnes/scénarios marketing :

  • Les solutions spécialisées, comme par exemple Adoric, Kibo, Nosto ou Barilliance. Il existe quelques acteurs français, comme Nuukik ou Target2Sell. Les tarifs varient entre 50 et 300 euros par mois.
  • Les grands éditeurs CRM qui, pour certains, intègrent un module dédié à la recommandation de produits.

recommandation produits ecommerce exemple nuukik

 

Le point commun à tous ces outils ? Ils proposent un moteur de recommandations basé sur un algorithme dans lequel vous venez configurer des règles. Le carburant du moteur, ce sont les données clients. C’est pour cette raison que cela ne sert à rien de déployer un moteur de recommandations si vous n’avez pas au préalable des données consolidées et unifiées. C’est ici qu’intervient une solution comme Octolis, qui va vous permettre de connecter l’ensemble des données et de les unifier. Vous pourrez ensuite venir les synchroniser facilement dans votre solution de recommandations.

Une fois qu’on a dit cela (et cela me semblait important de le faire), voici quelques conseils pour choisir votre outil de recommandations :

  • Choisissez un logiciel qui convient à votre univers métier. Certains moteurs de recommandation sont adaptés pour toutes les industries, mais d’autres sont plus adaptés pour certains types de produits et services.
  • Choisissez un logiciel qui propose un connecteur avec la plateforme ecommerce que vous utilisez. Si le logiciel propose un connecteur, l’intégration sera beaucoup plus simple !
  • Si vous êtes utilisateur d’une solution CRM qui propose un module dédié à la recommandation de produits, vous pouvez regarder ce qu’il vaut, sans pour autant vous interdire de regarder ce que proposent les pure players.
  • Sélectionnez les 2 ou 3 solutions répondant le mieux à votre cahier des charges et testez-les. Les pure players proposent parfois des versions gratuites. Les autres peuvent être testés sous forme de démo.

Conclusion

Si vous cherchez des leviers pour générer plus de revenus ecommerce, nous vous conseillons clairement de mettre en place un système de recommandation de produits. Il existe des solutions relativement abordables qui permettent de le faire de manière simple. J’espère vous avoir convaincu !

Je vous conseille de recommander des produits à toutes les étapes des parcours clients, et pas uniquement sur le site internet. L’email reste un canal majeur pour faire de la recommandation de produits.

Enfin, consolidez vos données, nettoyez-les, vous en aurez besoin pour faire tourner votre moteur de recommandations 🙂

Les meilleurs outils de Data Preparation – Famille d’outils, fonctionnalités & exemples

Les équipes data passent le plus clair de leur temps à préparer les données. J’ai vu passer une étude qui montre que les Data Scientists consacrent en moyenne 80% de leur temps à préparer / nettoyer les données. C’est une aberration quand on sait qu’il existe des outils de dataprep qui permettent de faire d’énormes gains de productivité.

Il y a plusieurs manières de faire de la dataprep, du SQL custom aux outils no code en passant par les outils spécialisés et les outils de BI intégrant des fonctionnalités de dataprep.

Il n’est pas facile de faire son choix.

Avant de choisir une solution, il est important de prendre le temps de comprendre le marché, le positionnement des différentes solutions, les différences en matière de périmètre fonctionnel, etc.

C’est l’objectif de cet article.

Panorama des différents types d’outils de Data Preparation

Voici un panorama des différentes familles d’outils qui peuvent aider dans la préparation des données.

CatégorieDescriptionExemples de solutions
ETLLes solutions ETL ont toutes des fonctionnalités de data prep (le T de ETL signifie "Transform").Talend, Xplenty, Skyvia
SQL / PythonLes langages de bases de données comme SQL ou Python permettent de faire de la data prep, modulo de bonnes compétences techniques.DBT, Pandas, AWS Glue
Outils de dataprep spécialisésSolutions spécialisées dans la vérification et le nettoyage d'un type particulier de données : les adresses emails, les adresses postales, les données CRM...Emailable (emails), Egon (adresses postales), Cloudingo (données Salesforce)...
Dataprep intégrée dans des outils de BICertains outils de BI intègrent des fonctionnalités/modules de data prep.PowerBI, Tableau Prep, ToucanToco...
Dataprep intégrée dans des outils DataOpsLes outils de DataOps sont nombreux à intégrer des fonctionnalités de data prep : nettoyage, normalisation, déduplication, enrichissement...Octolis, Y42, Keboola, Weld...
Dataprep intégrée dans des outils de Data ScienceLa préparation des données peut être réalisée dans les outils de Data Science.Dataiku, Alteryx, Rapidminer...

Les fonctionnalités proposées par les outils de dataprep

Pour choisir le bon outil, il faut avoir une bonne compréhension des fonctionnalités proposées par les outils de dataprep. Il y a 4 fonctionnalités clés des outils de data preparation.

#1 Accès aux données et exploration à partir de n’importe quel set de données

L’accès aux données désigne la capacité de votre outil de dataprep à accéder à l’ensemble des sources de données que constitue votre système d’information. Quelles sont les sources que vous pouvez connecter à l’outil de dataprep ? Quels sont les formats de données gérés ? Quid de l’API ? Quid des connecteurs proposés par l’éditeur ? Ce sont autant de questions à vous poser lors de votre analyse des outils du marché.

Il faut que vous choisissiez un outil dans lequel vous pouvez intégrer facilement les données en provenance de vos différentes sources, sans limitations et indépendamment de l’endroit où sont stockées ces données. Vous avez des fichiers Excel, des fichiers CSV, des documents Word, un entrepôt de données SQL, des applications cloud, des systèmes opérationnels (CRM, marketing automation, ERP) ? Assurez-vous de pouvoir les importer dans l’outil de dataprep.

L’étape suivante consiste à explorer les données collectées pour mieux comprendre ce qu’elles contiennent et ce qu’il va falloir faire pour préparer les données en vue des cas d’usage cibles. Les données sont « profilées » : identification des patterns, de la distribution des données, des relations entre les variables et les attributs, des anomalies, des valeurs aberrantes ou manquantes, etc. L’outil de data prep doit permettre un travail exploratoire sur chaque data set.

#2 Nettoyage des données

Les outils de dataprep proposent ensuite des fonctionnalités pour nettoyer les données (data cleansing). Le nettoyage des données est indispensable pour disposer de data sets fiables, valides et exploitables.

Le nettoyage des données regroupe un certain nombre d’opérations : la suppression des valeurs aberrantes, la vérification de l’orthographe, la correction des erreurs de saisie, la standardisation des cases, l’identification et le marquage des cellules vides, la normalisation des formats (les dates, par exemple), l’élimination des données manquantes, la suppression ou la fusion des données dupliquées, le masquage des informations sensibles ou confidentielles…

Un template à télécharger pour cleaner vos données clients

Nous avons conçu un guide complet sur le nettoyage d’une base clients, les traitements à opérer et les différentes méthodes de nettoyage. Cerise sur le gâteau, on vous offre un template Excel pour nettoyer facilement un petit fichier clients 🙂

template nettoyage donnees clients

#3 Enrichissement des données

L’enrichissement des données est la troisième fonctionnalité clé des outils de dataprep. Enrichir les données consiste à améliorer le taux de complétude de la base de données (les cellules vides) et/ou à ajouter de nouveaux champs. L’enrichissement des données permet ensuite de mieux segmenter et personnaliser les campagnes/scénarios marketing ou les actions commerciales. Si l’enrichissement des données est si important, c’est que la personnalisation et le ciblage sont des clés de performance en marketing-ventes. Plus vous avez d’informations sur vos clients ou contacts, mieux c’est !

L’enrichissement de données peut s’effectuer de deux manières complémentaires :

  • A partir de sources de données internes.
  • A partir de sources de données externes : fournisseurs de données spécialisés, bases de données publiques, LinkedIn…

L’enrichissement des données améliore la valeur et le potentiel d’activation de vos données.

#4 Export des données

Les données, une fois préparées, doivent être exportées dans les outils de destinatation : outils d’activation, outils d’analyse, entrepôt de données, CDP…Les capacités d’export des données sont un facteur discriminant dans le choix d’un outil de data preparation.

Gardez le contrôle de vos données clients

Le contrôle des données devient un enjeu clé pour les entreprises. Découvrez pourquoi vous ne devez pas stocker vos données dans vos logiciels (CRM, Marketing Automation, ERP…), mais dans une base de données indépendante. On vous explique tout dans notre guide complet sur le contrôle des données.

Les principaux critères différenciants

Voici quelques critères à prendre en compte dans le choix de votre outil de dataprep :

  • Le niveau de technicité requis. Il existe des outils no code qui permettent de procéder aux opérations de dataprep sans savoir programmer. A l’inverse, certains outils sont destinés aux utilisateurs maîtrisant parfaitement le code (le langage SQL notamment). Entre les deux, on trouve toute une série d’outils nécessitant quelques connaissances en code. Ce sont outils « low code », dont l’utilisation nécessite une bonne collaboration entre les équipes IT et métier.
  • La vitesse de traitement. On distingue classiquement les outils qui redistribuent les données préparées en temps réel (real time) et ceux qui redistribuent les données préparées toutes les X minutes/heures (batch processing). Dans certains secteurs, le temps réel est un réel besoin. Dans beaucoup d’autres, le batch processing est suffisant.
  • Le nombre de recettes packagées. Une recette est un ensemble de traitements séquencés réalisés sur un set de données. Les outils de dataprep proposent des recettes packagées qui permettent de gagner du temps.
  • Le prix. Certains outils de dataprep « self service » proposent des offres gratuites qui, si vos cas d’usage sont basiques, peuvent faire l’affaire. Les outils de dataprep les plus évolués peuvent coûter jusqu’à 100 000 euros par an.

Les meilleurs outils de data preparation

Les outils de dataprep self service, testables rapidement

Les outils de dataprep self service sont des solutions légères, faciles à prendre en main et conçues pour les équipes métier/business. Il n’y a pas besoin d’être technophile pour les utiliser. Ces outils ont aussi l’avantage de proposer des tarifs très abordables. Nous en recommandons 3 : Tye, Paxada et InfogixData360.

NomDescriptionPricing
TyeTye est un logiciel de nettoyage et d’enrichissement de données conçu pour les PME, avec un focus sur le traitement des listes d’emails. A partir de son interface intuitive, vous pouvez identifier en un coup d’oeil les données erronées ou dupliquées. 0,05 à 0,24 par set de données
PaxataDataRobot (ex Paxata) est un outil de dataprep self service utilisable à la fois par les équipes IT et les novices. Il propose une interface user-friendly permettant d’explorer, de profiler et de transformer de manière visuelle des sets de données.Basé sur le volume
InfogixData360Infogix Data 360 propose une suite de logiciels couvrant toutes les étapes du Data Management, de la connexion des données à leur activation, en passant par leur vérification et leur enrichissement. Basé sur le volume

Les outils de dataprep pour les grandes entreprises

Les grandes entreprises ont souvent des besoins avancés en dataprep, étant donné la quantité de données à gérer, leur diversité et la complexité des écosystèmes data. Certaines solutions de dataprep sont conçues pour les grandes entreprises. Elles proposent des fonctionnalités de dataprep avancées et ont souvent un périmètre fonctionnel qui déborde la préparation des données. Ce sont, sans surprise, des solutions très coûteuses.

NomDescriptionPricing
DataLadderData Ladder à l’avantage d’être à la fois très complet et relativement simple d’utilisation. Pas besoin d’être un data scientist pour profiter de ses principales fonctionnalités, l’outil est no code. Data Ladder consolide, nettoie, profile et déduplique vos données.Les tarifs sont calculés en fonction du volume de data records
AltairMonarchAltaire Monarch propose plus de 80 fonctionnalités préconstruites pour nettoyer et préparer les données de votre écosystème. Monarch gère aussi bien les données structurées que non-structurées : PDFs, spreadsheets, fichiers textes. L’outil se connecte à toutes vos solutions cloud et Big Data. L’interface est très simple d’utilisation, sans code, click-based. A partir de 1995$ par utilisateur et par mois
TamrUnifyTamr est un outil de préparation de données basé sur l'apprentissage automatique. Il est utilisé pour le mélange et la transformation des données à l'échelle de l’entreprise.Le procédé utilise des algorithmes et l'apprentissage automatique.Varie en fonction de la taille de la base de données

Les outils de dataprep spécialisés sur un sujet spécifique

Si vos besoins de dataprep se limitent à vouloir nettoyer et normaliser des adresses emails, il n’est pas sûr que vous ayez (tout de suite) besoin d’investir dans une solution de dataprep avancée. Il existe sur le marché de bonnes solutions spécialisées dans la préparation de données spécifiques : les adresses emails, les adresses postales, les données Salesforce.

NomDescriptionPricing
EmailableEmailable est une solution conçue pour vérifier et nettoyer vos listes d’emails avec pour finalité l’amélioration de la performance de vos campagnes et scénarios. Emailable supprime les adresses erronnées et peut valider les adresses emails via ses APIs/partenaires. Solution assez compétitive, aux prix abordables, Emailable propose une interface intuitive qui ravira les profils marketers.À partir de 30€
EgonDisponible en SaaS par abonnement et en version On-Premise, Egon est une solution pour vérifier et nettoyer les adresses postales. Elle gère plus de 200 pays et offre la possibilité de vérifier les adresses au moment de la saisie (via les APIs) ou en batch sur une liste d’adresses. Mais ce n’est pas tout, vous pouvez aussi utiliser Egon pour la validation des numéros de téléphone et la validation des adresses emails.0.02$ par set de donnée
CloudingoSi vous utililisez Salesforce, cette solution est faite pour vous. Cloudingo est spécialisé dans le nettoyage et la déduplication des données Salesforce. C’est une solution de référence pour préparer des données Salesforce, les dédupliquer, les enrichir, les normaliser, supprimer les données inexactes, invalides, inconsistantes. Varie en fonction de la taille de la base de données

Les outils de dataprep intégrés dans un outil de Business Intelligence (BI)

Les solutions de Business Intelligence leaders du marché proposent toutes des fonctions de dataprep. C’est le cas, notamment, de Power BI, de Tableau ou de Dataiku. Si vous envisagez d’investir dans un outil de BI, vous pourrez l’utiliser pour préparer vos données.

NomDescriptionPricing
MicrosoftpowerBIMicrosoft Power BI est l’une des solutions de Business Intelligence leaders du marché. Elle permet de connecter n’importe quelles sources de données pour produire des dispositifs de reporting et faire de la data visualisation. Power BI offre également des fonctions avancées de data preparation.à partir de $4,995 par mois
TableauprepTableau Prep est la solution de data preparation proposée par Tableau, l’un des principaux concurrents de Power BI. Beaucoup plus abordable que Power BI, le module Tableau Prep vous permet de consolider, dédupliquer et nettoyer les données que vous utiliserez pour faire vos analyses dans Tableau. 70$ par mois
DataikuDataiku permet aux codeurs et aux non-codeurs de construire facilement des pipelines de données avec des ensembles de données.Connectez, nettoyez et préparez les données pour les projets d'analyse et d'apprentissage automatique à votre échelle. Dataiku offre une interface visuelle facile à utiliser qui accélère considérablement la préparation des données.Version gratuite disponible
AlteryxAlteryx permet d'aider les utilisateurs à automatiser le travail manuel de leur gestion de données ce qui rend le processus de préparation des données beaucoup plus simple.La plateforme fournit les résultats de vos analyses de données à plus de 70 sources, dont SQL, Oracle, XML, Spark, Microsoft Excel, PDF, etc.5195$ par utilisateur par mois
TrifactaOutil utilisé par les analystes de données et les organisations afin d'explorer, de transformer et d'intégrer leurs ensembles de données non structurées.Il structure, nettoie, enrichit et valide les données.Trifacta suggère automatiquement des transformations et des agrégations sur la base d'algorithmes d'apprentissage automatique.419$ par mois
DatameerDatameer propose une modélisation de données pour les analystes ayant tous les niveaux de compétences SQLCela permet de transformer et modéliser les données directement dans leurs bases de données.Gratuit

Les outils de Data Ops

Les outils de Data Ops sont des solutions sur l’étagère tout-en-un pour gérer les données de l’entreprise au service du business. Un outil de Data Ops permet, depuis une interface simple, de connecter l’ensemble des sources de données, de transformer les données et de les redistribuer sous forme d’agrégats aux outils d’activation et aux outils de BI. La transformation inclut le nettoyage des données, leur normalisation, leur consolidation, leur enrichissement et la création d’agrégats/d’audience à des fins d’activation ou d’analyse. Les outils de Data Ops s’intègrent dans une architecture IT de type stack data moderne.

NomDescriptionPricing
OctolisOctolis est un outil de préparation de données qui permet de connecter toutes les sources de données, de les combiner, d'effectuer des calculs de base ou des calculs basés sur SQL et enfin de synchroniser vos données en temps réel.Chaque audience peut alimenter en temps réel autant de destinations que nécessaire !À partir de 700€ par mois
Y42Y42 est la plateforme de données que tout le monde peut utiliser sans compétences d’analyste de données. Y42 permet de supprimer la complexité de la gestion d’outils et ainsi de commencer à utiliser cette une plateforme orientée analyse de données.Entre 449€ et 899€
KeboolaLa plateforme Keboola offre un service de preparation de données avancé en 4 étapes:STOCKAGE DE DONNÉES1. Stockage de données: Keboola Connection fournit un stockage élastique, évolutif et sécurisé pour les données structurées et non structurées. 2. Partage des données: le catalogue de données intégré de Keboola rend le partage des données entre les projets et les équipes sûr et rapide.3. Transformations de données: les transformations dans Keboola Connection sont basées sur des outils avec lesquels tout ingénieur de données est déjà familier. 4. Science des données: Que SQL ou Python soient vos outils de prédilection, les bacs à sable de science des données de Keboola vous amènent directement au travail réel.Version gratuite disponible

Gestion du consentement clients – Définition & outils

Le RGPD a fait de la gestion du consentement clients un enjeu majeur pour les entreprises. Le cadre juridique régissant le traitement des données personnelles continue de se durcir (règlement ePrivacy) et les CNIL européennes multiplient les contrôles : le consentement clients doit être un sujet prioritaire pour votre entreprise.

Le recueil du consentement clients est obligatoire si vous exploitez les données à caractère personnel à des fins publicitaires ou marketing. Une nouvelle famille de technologies est apparue ces dernières années pour collecter et gérer les consentements : les Consent Management Platforms ou CMP. Nous allons vous présenter deux solutions de référence sur le marché français (et européen).

Mais la gestion du consentement clients est plus qu’un projet logiciel classique qui se limiterait à déployer une CMP. Elle appelle un changement de culture de l’entreprise vis-à-vis de la data, de son utilisation, de son organisation. Ce sont les outils de data management des entreprises et les architectures IT qui doivent évoluer. Et c’est ici qu’entre en jeu la nouvelle génération de Customer Data Platform que nous vous présenterons en fin d’article.

La gestion du consentement clients est désormais un enjeu incontournable

Qu’est-ce que le consentement clients ? [Définition]

Le consentement clients définit l’ensemble des systèmes et des process mis en place par l’entreprise pour donner aux clients le contrôle sur les données qu’ils partagent à l’entreprise. Donner le contrôle au client sur ses données personnelles, concrètement, consiste à appliquer deux principes : le consentement et la transparence.

Tout le monde a en tête la gestion des consentements cookies, avec ses bandeaux et ses centres de préférences qui permettent à l’internaute d’accepter ou refuser le consentement. Mais le consentement clients ne se réduit pas au consentement cookies. Il concerne la plupart des données personnelles communiquées à l’entreprise par les clients. On peut penser par exemple à la collecte des opt-ins dans le cadre des campagnes emails et aux mécanismes de désinscription (opt-out).

Gestion du consentement Vs Gestion des préférences

La gestion du consentement client est un sujet bien plus vaste que la gestion des préférences. La gestion des préférences est le fait de donner au client la possibilité de choisir la fréquence des communications, les thématiques des messages, les canaux de distribution des sollicitations, etc. Voir par exemple le centre de gestion des préférences proposé par Veepee.

gestion consentement client centre preferences

Comme nous le verrons tout à l’heure, la gestion du consentement est opérée via une Consent Management Platform. La gestion des préférences est opérée via ce que certains appellent une Preference Management Platform. Didomi, par exemple, propose à la fois une « CMP » et une « PMP ».

preference management platform didomi
Didomi propose une CMP et une PMP.

La gestion du consentement clients est devenue un enjeu clé avec le RGPD

Le consentement clients n’est pas un sujet nouveau. Cela fait des décennies que l’on parle d’optin et d’optout. Cela fait des décennies qu’il existe en France une réglementation encadrant l’utilisation des données personnelles : la fameuse loi Informatique & Libertés. Mais le règlement général sur la protection des données (RGPD), en vigueur depuis 2018, nous a fait entrer dans un monde nouveau. Son objectif : redonner aux citoyens européens le plein contrôle de leurs données personnelles. Les règles en matière de gestion des données personnelles se sont considérablement durcies, les obligations se sont multipliées.

Le consentement est l’un des piliers de cette nouvelle architecture juridique. Il est au cœur du règlement et de sa philosophie. Il est défini à l’article 4, alinéa 11 du règlement :

« Toute manifestation de volonté, libre, spécifique, éclairée et univoque par laquelle la personne concernée accepte, par une déclaration ou par un acte positif clair, que des données à caractère personnel la concernant fassent l’objet d’un traitement ».

Une entreprise ne peut pas utiliser les données personnelles de M. Dupont sans obtenir le consentement de M. Dupont. C’est la règle de principe. Il existe quelques exceptions :

recueil consentement client exceptions
Source : Journal de l’Economie.

Par exemple, dans le cadre du ecommerce, la collecte des informations de facturation et de livraison n’est pas soumise au recueil du consentement dans la mesure où ces informations sont nécessaires pour exécuter la vente et livrer le produit. Par contre, le recueil du consentement est obligatoire pour les données collectées à des fins marketing ou publicitaires. Typiquement, l’inscription d’une personne sur une liste de diffusion.

Ajoutons d’ailleurs qu’il n’y a pas que le RGPD. Même si l’Union européenne est clairement en pointe en matière de protection des données personnelles, les législations du monde se mettent au diapason. Aujourd’hui, 71% des pays du monde sont couverts par des privacy laws. Le renforcement des dispositifs juridiques de protection des données personnelles semble être le sens de l’histoire.

consentement client leglislation monde
Source : Nations Unies.

First party is the new king

Le durcissement du cadre légal incite à un recentrage sur les données first party, c’est-à-dire les données recueillies par l’entreprise elles-mêmes via ses propres dispositifs de collecte (formulaires, jeux concours, etc.). Par opposition avec les données third party, issues de fournisseurs de données tiers, omniprésentes jusqu’à maintenant dans l’AdTech.

Si les données clients sont le carburant du marketing relationnel et de la relation clients, ces données seront de plus en plus des données relevant du patrimoine de l’entreprise. Les données CRM et les données web collectées par l’entreprise sur ses sites web ont vocation à jouer le premier rôle.

On assiste vraiment à un changement de paradigme. Et les professionnels du marketing et de la data en sont les premiers acteurs. La collecte de données first party était une priorité pour 88% des marketers en 2021, selon cette étude.

Contrôlez vos données clients !

Découvrez notre article sur le contrôle des données clients. On y aborde les 3 dimensions du contrôle des données, le risque qu’engendre un mauvais contrôle et les solutions technos pour contrôler les customer datas.

Gérer le consentement clients avec une Consent Management Platform

Définition des Consent Management Platforms

Les Consentement Management Platforms sont, comme leur nom l’indique, des solutions logicielles conçues pour gérer le consentement clients. C’est une famille de technologies apparue dans le sillage de l’entrée en vigueur du RGPD. Les CMP sont beaucoup utilisées pour gérer la collecte et les préférences cookies, mais les plateformes ont augmenté ces dernières années leur périmètre fonctionnel afin de gérer tous les consentements clients.

Certaines CMP sont des pure players tandis que d’autres sont des solutions développées par des éditeurs MarTech ou AdTech historiques : adservers, DPS, marketing digital…On trouve aussi un certain nombre de CMP développées par des acteurs du Tag Management (tracking web).

Il y a donc une importante hétérogénéité (au sens littéral) des acteurs du marché des CMP. Cette hétérogénéité se traduit par des différences fonctionnelles, que ce soit en termes de périmètre/richesse fonctionnelle ou de profondeur fonctionnelle. Une CMP développée par un éditeur AdTech, par exemple, sera surtout conçue pour rassurer les clients de cet éditeur et leur permettre d’utiliser les solutions AdTech proposées en toute légalité. Les CMP développées par des pure players auront en général un périmètre fonctionnel plus vaste.

Une entreprise qui n’est pas dépendante d’un écosystème logiciel en particulier à bien souvent intérêt à opter pour une CMP éditée par un pure player.

Zoom sur périmètre fonctionnel des Consent Management Platforms

Une Consent Management Platform comprend 3 briques fondamentales. Ces briques couvrent le cycle de vie du visiteur ou client : recueil du consentement client, historisation du consentement client, gestion des préférences et des demandes de modification, suppression…

1 – La collecte des consentements

Une CMP permet de gérer le recueil des consentements au moment de la collecte des données personnelles. Nous l’avons rappelé en début d’article, recueillir le consentement, ce n’est pas seulement demander au client s’il consent au traitement de ses données, c’est aussi lui expliquer les raisons de la collecte. Le consentement et la transparence sont deux principes inséparables du RGPD. Les CMP permettent de gérer le consentement à un niveau granulaire, c’est-à-dire d’offrir au client la possibilité de décider quels traitements il accepte et quels traitements il refuse – en présentant clairement les objectifs de la collecte.

2 – L’enregistrement et l’historisation des consentements

La CMP donne accès à une interface d’administration qui permet de visualiser l’ensemble des consentements clients, au niveau de chaque client ou contact. Le RGPD, comme vous le savez certainement, limite la durée de conservation des données personnelles. Une CMP permet de gérer cette limitation : suppression automatique des données OU réitération de la collecte du consentement.

Disposer d’une CMP permet en fait de centraliser la gestion du consentement client. Signalons que les plateformes CMP proposent des connecteurs natifs et des APIs pour diffuser les règles de consentement à l’ensemble des outils et applicatifs de votre écosystème.

La plateforme permet de savoir en un coup d’œil :

  • Quels sont les contacts qui ont donné leur consentement. Les contacts sont identifiés par leur nom ou un email, un cookie first party, un device ID…).
  • Quand ils l’ont donné.
  • A quoi le contact a consenti.
  • Si et quand le consentement a été révoqué.

3 – La gestion des préférences clients

Le consentement est recueilli. Il est historisé dans la plateforme. Mais ce n’est pas la fin de l’histoire : vos clients et vos contacts peuvent à tout moment révoquer ou ajuster leur consentement. Plus généralement, ils disposent d’une multitude de droits créés ou renforcés par le RGPD : droit d’accès, droit de rectification, droit d’effacement, droit à la limitation des traitements, droit de portabilité, droit d’opposition

La CMP est l’outil qui facilite la gestion des droits des personnes.

gestion preferences consentement client
Source : Piwik.

Deux Consent Management Platforms adaptées aux entreprises françaises et européennes

Nous allons vous présenter deux Consent Management Platforms : un pure player (Didomi) et une solution développée par un éditeur de l’AdTech (Sirdata).

Didomi, le pure player français qui fait autorité sur le marché des CMP

consentement management platform didomi

Intégrant toutes les recommandations de la CNIL, Didomi s’est imposée comme l’une des plateformes CMP de référence sur le marché français. La startup a levé 5 millions d’euros en 2020 et enrichir constamment sa plateforme. L’éditeur compte de gros clients comme France Inter, Leboncoin, El Mundo, Michelin, L’Equipe… Didomi est particulièrement adapté pour les entreprises B2C ayant un fort trafic web et mobile : media, ecommerce… Cela se reflète sur son modèle économique basé sur le nombre de visiteurs uniques mensuel (VUM).

Prix : à partir de 300€ par utilisateur et par mois jusqu’à 100k VUM, à partir de 400€ entre 100 k et 300 k VUM, etc.

Points forts & faibles de Didomi

  • Recommandé par la CNIL
  • Solution très complète
  • Mises à jour régulières
  • Excellente intégration aux outils de la suite Google.
  • Relativement cher
  • Pas conçu pour le B2B

Sirdata, une CMP issue de l’AdTech

consentement management platform sirdata

SIRData est un éditeur de solutions publicitaires à destination des éditeurs de contenus. SIRData accompagne les entreprises dans la monétisation du trafic web et a développé une Consent Management Platform suite à l’entrée en vigueur du RGPD. La CMP de SIRData est à la fois simple d’utilisation et relativement complète fonctionnellement parlant. Elle permet notamment de personnaliser de manière très fine le centre de préférences et gère le multilingue. SIRData CMP, qui équipe plus de 20 000 sites éditeurs de contenus, propose deux offres : une offre gratuite et une offre facturée 200€ HT par tranche de 2M hits (= pages vues).

Points forts & Sirdata

  • Interface user-friendly, solution clé-en-main
  • Gestion du multilingue (16 langues)
  • Deux offres dont une 100% gratuite
  • Périmètre fonctionnel moins développé que Didomi

Mieux exploiter ses données 1st party grâce à une CDP moderne

Nous avons vu que le durcissement réglementaire conduisait à un recentrage sur les données 1st party, qui sont les données collectées directement par l’entreprise. Les Customer Data Platforms modernes sont les solutions les mieux adaptées pour gérer de manière centralisée les données 1st party.

Une Customer Data Platform est une solution permettant de centraliser et d’unifier l’ensemble des données clients générées par vos différentes sources de collecte : données de profil, données transactionnelles, données de navigation, données marketing et commerciales. By Design, une « CDP » se concentre sur les données first party même si ces données peuvent faire l’objet d’enrichissement via des services tiers (en B2B notamment).

Les CDP modernes permettent de casser les silos de données, de mettre fin à une situation trop souvent observée : la dispersion des données dans les dizaines d’outils et de bases du système d’information de l’entreprise. Piliers de l’architecture Data / Tech de l’entreprise, les Customer Data Platforms proposent des dizaines de connecteurs natifs et des APIs pour connecter facilement toutes les sources de données.

octolis customer data platform
La Customer Data Platform Octolis propose des dizaines de connecteurs natifs.

Pas de bonne gestion des données et pas de bonne gestion du consentement possible sans une centralisation et unification des données. C’est la clé. Et c’est la fonction de la Customer Data Platform. Elle permet d’atteindre ce Graal longtemps cherché : la consolidation des données CRM et web, offline et online autour d’un identifiant client unique. Les CDP de la nouvelle génération ont l’avantage de fonctionner en surcouche de la base de données clients de l’entreprise, garantissant une maîtrise totale des données.

La nouvelle génération de CDP

Une nouvelle génération de Customer Data Platforms émerge, conçue pour fonctionner en surcouche d’une base de données indépendante de type Data Warehouse Cloud. Les CDP « modernes » garantissent un meilleur contrôle des données clients par l’entreprise. Pour en savoir plus, lire notre article « Vers un nouveau paradigme sur le marché des CDP« .

L’essor des Customer Data Platform est à la fois le symptôme et la conséquence du recentrage sur les données first party.

Conclusion

La gestion du consentement client, devenue incontournable depuis l’entrée en vigueur du RGPD, suppose la mise en place de process et de règles unifiés. Nous avons vu le rôle que pouvaient jouer les Consent Management Platforms dans la collecte des consentements, leur historisation et la garantie des droits des personnes. Mais, au-delà, l’enjeu est bel et bien l’unification des données clients. Gestion des consentements et unification des données sont deux sujets inséparables. Aujourd’hui encore, la dispersion des données est le plus gros frein à une bonne gestion du consentement clients. La nouvelle génération de Customer Data Platforms est la solution moderne d’unification et d’activation des données clients.

Comment nettoyer sa base de données clients – Guide & Template

Difficile d’évaluer à quel point vous perdez du temps et des opportunités à cause d’un fichier clients incomplet, pas fiable, pas normalisé, mais c’est beaucoup. Je cherchais des chiffres sur le net pour illustrer mon point, et ils sont tellement gros qu’ils me paraissent peu crédibles (12% Cost of Poor Data to Overall Revenue »). En tout cas, les enjeux de qualité de données, c’est au minimum 20% de productivité perdue pour toutes les personnes qui travaillent avec des données clients sur des outils CRM, emailing, service client..

C’est important d’évaluer le coût d’une mauvaise qualité des données clients, car cela déterminera le budget à investir sur le sujet. Il y a un coût humain dans la perte de productivité, mais il y a aussi des pertes business, encore plus difficiles à évaluer mais bien réelles. Quelques exemples de mon expérience perso: le programme de fidélité attribue des cadeaux à des profils clients présents en double, et on se retrouve avec 20% de cadeaux envoyés au même foyer en double, le responsable CRM fait des campagnes sur « Country » = « Spain », et on se rend compte qu’on perd 30% des contacts dont le champ « Country » contient plutôt « Espana » ou « es », le sales, etc.

Vous devez investir au moins 20% de votre budget CRM dans la préparation des données clients. Vos équipes et vos clients vous en remercieront.

Le sujet est complexe. Il y a beaucoup de problèmes à adresser pour avoir une belle base de données clients.
Dans cet article, on va faire un tour des principaux types de traitements à réaliser (dédoublonnage, nettoyage email, format téléphone, RNVP, etc.), en présentant les différentes solutions envisageables.

Pour aider nos lecteurs qui n’ont pas le budget pour envisager les solutions qui seront présentées, et qui souhaitent juste bricoler un peu mieux qu’avant, on a un petit cadeau. Un template Gsheet qui contient quelques formules bien utiles pour nettoyer basiquement un fichier clients.

nettoyage base de données clients ressource excel

Télécharger le template GSheet pour nettoyer un fichier

Les traitements pour nettoyer votre base de données clients

Qu’est-ce qu’une base client de mauvaise qualité ?

Doublons, données erronées, incomplètes, non normées sont autant d’indices d’une base de données de mauvaise qualité.

Doublons

Il y a un doublon lorsqu’un contact se trouve en double dans une même base de données. L’existence de doublons dans un fichier ou dans une base de données peut avoir 2 origines :

  • Les utilisateurs (= l’entreprise). Les erreurs humaines existent, en particulier au moment de la saisie des données. Il arrive qu’un ou plusieurs utilisateurs enregistrent plusieurs fois le même contact dans la base avec une syntaxe ou une orthographe différente.
  • Les contacts. Par exemple, un contact peut très bien s’inscrire deux fois à la même newsletter en donnant deux adresses emails différentes. Comme l’email est généralement l’ID utilisé par le logiciel emailing, cela génère un doublon…même si les autres informations données (nom, prénom) sont les mêmes dans les deux cas.

Données erronées

Les données sont erronées quand…elles ne sont pas correctes. Par exemple, l’adresse email n’est pas bonne, le prénom n’est pas bon, etc. Les données erronées sont le fruit d’erreurs au moment de la saisie de l’information, que ce soit par le contact lui-même (dans un formulaire, dans un questionnaire) ou par l’entreprise (commercial, service client…). Une donnée erronée peut aussi (c’est plus rare) résulter d’un problème de compatibilité de format entre la source de collecte et la base dans laquelle atterrit la donnée. On connaît tous les « é » qui se transforment en é dans certains fichiers !

Données incomplètes

Les champs sont rarement tous complétés, tout simplement parce qu’on n’a jamais toutes les informations sur tous les contacts. Le « taux de complétude » est rarement à 100%. La plupart du temps, ce n’est pas gênant, mais des fois, ca peut être très problématique. Les équipes commerciales ne veut pas travailler sur un fichier aussi incomplet, les équipes marketing ne veulent pas personnaliser un message avec une variable dispible à 70%, etc.

Beaucoup de bases de données clients ressemblent à un gruyère composé de plein de trous qui correspondent aux champs vides. Cela a évidemment une incidence sur la qualité de la base de données et son potentiel d’activation (comment voulez-vous envoyer un email aux plus de 50 ans si vous connaissez l’âge de seulement 5% de vos contacts ?).

Données non normées

M. ou Mr. ? 75 ou Paris ? Bien souvent, peu importe le format que l’on choisit, l’essentiel est de choisir un seul format par type de données. C’est l’art de ce que l’on appelle la « normalisation ». Le manque ou l’absence de normalisation des données pose un gros problème de lisibilité et d’activation de la base (des données non normées se traduisent par des variables inexploitables).

Données obsolètes

Les données n’expriment pas une vérité éternelle. Elles vivent comme vivent vos contacts. Une donnée correcte à l’instant t peut donc devenir obsolète à l’instant t+1. On peut prendre l’exemple des adresses postales, des numéros de téléphone, des professions, etc. En fait, la plupart des données (presque toutes) sont sujettes à l’obsolescence.

Nous avons passé en revue les principaux éléments qui portent atteinte à la qualité d’une base de données client. Nous allons voir maintenant les traitements à réaliser pour optimiser la qualité des données, les corriger, les nettoyer dans votre BDD.

Les princpaux traitements à appliquer pour nettoyer votre base clients

Voici une liste des principaux traitements pour maintenir et/ou optimiser la qualité des données. Pour chaque traitement, nous proposons une description, des exemples et les solutions possibles.

TraitementDescriptionExemplesSolutions possibles
DédoublonnnageIdentification & fusion des doublons de contact, sur la base d’une ou plusieurs clés.Plusieurs fois la même adresse mail dans ma bdd clients.- Ponctuel : prestation agence / Excel / ETL - Live : logiciel CDP, ou extension CRM.
Normalisation des donnéesCorrection des valeurs de différentes colonnes pour respecter une nomenclature.“Mlle” devient “Madame” ou “Espana” devient “ES”.- Ponctuel : prestation agence / Excel / ETL - Live : logiciel CDP, ou extension CRM.
Nettoyage des emailsSupprimer les fausses adresses email de votre base pour éviter les bounces.Supprimer ou fusionner “anti-spam@..”Winpure, Data Ladde, TIBCO Clarity...
Format des numéros de téléphoneNormaliser les N° aux formats internationaux."06 XX ..” devient “+33 6...”.- Ponctuel : prestation agence / Excel / ETL - Live : logiciel CDP, ou extension CRM, exemple XXX sur Salesforce
RNVP des adresses postalesLe traitement RNVP permet de limiter le nombre de PND lors d'une campagne de marketing direct postal ou lors de la livraison de colis et permet également de bénéficier des tarifs d'affranchissement spécifiques.“mme dupont julie appt 213 2e étage...” devient : ”Madame Julie Dupont Appartement 213, Etage 2”.Outils spécifiques (DQE Adresse, Cap Address, 76310) ou agence (Capency...).
Code paysNormaliser les pays de naissance et résidence de vos contacts selon les normes ISO.Espagne : - ES - ESP - Spanish - es.- Ponctuel : prestation agence / Excel / ETL - Live : logiciel CDP, ou extension CRM.
DéduplicationIdentifier les données qui apparaissent dans plusieurs fichiers du système d’information et les fusionner dans une seule base.Un ID unique pour mon CRM et mon outil de Marketing Automation.Mise en place d'un Référentiel Client Unique + accompagnement par un cabinet de conseil.

Découvrez notre guide sur les Customer Data Platforms

Les solutions CDP permettent de préparer, scorer et synchroniser votre base clients. Cela peut faire sens d’étudier le sujet si vous avez des enjeux importants sur votre base clients (et un peu de budget..). Je vous invite à parcourir notre guide sur les CDP pour en apprendre un peu plus sur le sujet.

L’approche Do it yourself sur Excel

Nous avons réalisé un modèle Excel qui vous permet d’appliquer des règles de nettoyage sur un fichier de contacts.
L’onglet « Démo » réalise plusieurs actions en même temps, et génère un ensemble de colonnes en « output » avec le résultat post nettoyage. Pour ceux qui cherchent surtout un peu d’inspiration pour enrichir ce qu’ils font déjà, on a mis chaque traitement réalisé dans un onglet dédié.

nettoyage base de données clients ressource excel

Onglet Déduplication

nettoyage base de donnees modele excel deduplication

Cet onglet permet de gérer les déduplications. Le bloc de gauche renvoie aux données contenues dans votre fichier. Dans notre exemple, nous avons 4 adresses différentes pour seulement deux individus : John & Matilda. La colonne « Qualification » permet d’identifier les doublons. La troisième colonne fait ressortir 1 compte unique avec l’information associée.

Deux points de vigilance à avoir quand on procède à un dédoublonnage :

  • L’information liée au doublon supprimée est perdue.
  • Il y a un risque de fusionner des contacts distincts. Il faut en être conscient.

Onglet Nettoyage des emails

nettoyage base de donnees modele excel email cleaning

Cet onglet sert à qualifier l’adresse email, et plus précisément à identifier si l’adresse est :

  • Générique. Pour rappel, une adresse email générique est une adresse qui est rattachée à un service ou à une fonction plus qu’à un individu. C’est le cas par exemple des adresses contact@, admin@, info@, etc. C’est la partie locale de l’adresse email (avant l’arobase) qui permet d’identifier ce type d’emails.
  • Professionnelle. C’est cette fois-ci l’adresse du serveur (la partie de l’email après l’arobase) qui permet de détecter le caractère professionnel ou non de l’adresse : prénom.nom@mon-entreprise.com.
  • Jetables. Il s’agit des adresses emails temporaires, qui s’autodétruisent automatiquement après un certain temps. Ce sont des adresses créées par des contacts qui veulent s’abonner à un service sans avoir à utiliser leur adresse personnelle ou professionnelle (pour des raisons de privacy ou de sécurité). Il existe plusieurs services comme Temp Mail qui permettent de générer facilement des adresses temporaires.

Onglet Pays

nettoyage base de donnees modele excel normalisation pays

Nous avons vu plus haut les problèmes liés à l’absence de normalisation des données. Ce problème touche en particulier les informations de pays : en fonction des langues et des conventions liées aux outils que vous utilisez, le format des informations de pays ne seront pas les mêmes.

Dans cet onglet, vous gérez les différents formats utilisés par vos outils pour le pays. Par exemple, pour l’Espagne : Espagne, España, Espana, Spain, Spagna…Dans l’output (votre fichier nettoyé), cette diversité sera ramenée à l’unité d’un même format : ES. Tout l’enjeu est de bien indiquer toutes les formes possibles que peut prendre l’enregistrement du pays dans vos outils. Vous trouverez dans l’onglet « Settings » toutes les appellations potentielles pour chaque pays. Vous pouvez enrichir ce listing.

nettoyage base de donnees modele excel reglages pays

Civilité

nettoyage base de donnees modele excel civilite

Cet onglet fonctionne de la même manière que le précédent. Il permet de normaliser les civilités, c’est-à-dire de ramener toute la diversité des appellations possibles au duo M & F. Dès qu’une occurrence de « Monsieur », « Mister », « M. », « Mr. », « Senor », apparaîtra dans votre fichier, elle sera identifiée comme « M ». Là encore, vous pouvez enrichir les formats que nous proposons dans l’onglet « Settings ».

nettoyage base de donnees modele excel reglages civilite

 

Accéder à notre modèle Excel gratuit

Les outils pour nettoyer sa base de données

Vous pouvez aussi procéder au nettoyage des données en utilisant des outils. Vous avez trois grandes options :
1. Les modules de « cleansing » proposés par votre outil CRM (surtout vrai pour Salesforce..),
2. Un outil CDP / Data management (comme Octolis 😇),
3. Oter pour une ou plusieurs solutions spécialisées.

Les outils de data management comme Octolis

Certains outils d’activation (CRM, Marketing Automation, etc.) proposent des fonctionnalités natives de Data Management. Ce n’est pas étonnant quand on sait l’impact de la qualité des données sur la performance des campagnes et scénarios marketing. Les suites marketing ont pris leurs devants.

La limite de cette approche renvoie au problème plus général de la fragmentation des stack data et marketing. L’entreprise dispose de 15 outils dont peut-être un tiers propose des fonctionnalités de management de la qualité des données. Mais le nettoyage et la normalisation, dans cette architecture éclatée, s’effectuent dans chaque outil séparément.

Chaque outil a ses formats et ses règles de normalisation. Dit autrement : les données sont normalisées POUR le logiciel CRM, POUR le logiciel de Marketing Automation, etc. Il n’y a pas normalisation au niveau global du SI Client.

Une solution comme Octolis permet de résoudre ce défi. Octolis est une plateforme de data management qui fonctionne « au-dessus » de la base client. La solution Octolis permet de réconcilier, unifier, dédupliquer toutes les données stockées dans la base de données indépendante de l’entreprise et facilite la normalisation et le nettoyage. L’utilisation d’un outil de ce genre suppose bien entendu d’avoir une base de données pivot. Mais, dans les faits, la plupart des entreprises ont une base de ce type, qu’elle s’appelle data warehouse ou data lake.

nettoyage base donnees clients data prep octolis

Cette approche consistant à utiliser une base de données indépendante de tous les applicatifs et autres outils de l’entreprise, connectée à une solution comme Octolis, c’est ce que l’on appelle la Stack Data Moderne.

Précisons qu’Octolis permet de couvrir la plupart les besoins classiques de normalisation et de nettoyage. Certains cas d’usage avancés ne sont pas possibles, par exemple le traitement RNVP.

Les outils de la Stack Data Moderne

ELT, webtracking first party, data warehouse cloud, data transform, orchestration des données, data science, data catalog, data viz…Découvrez notre benchmark complet des outils de la Stack Data Moderne !

Solutions spécialisées : Nettoyage Email

L’importance de la qualité des données est telle que certains outils ont été développés spécialement pour gérer cet aspect. Ce sont des solutions dites « Best of Breed » qui se concentrent sur une brique fonctionnelle et une seule : la Data Quality.

On trouve par exemple les outils de nettoyage d’emails. Par exemple : Bouncer, Zerobounce, MailnJoy ou encore Hunter. Ces outils proposent des connecteurs et une API permettant d’intégrer à peu tous vos logiciels ayant des fichiers d’adresses. Ces outils ne s’arrêtent pas à la validation des emails mais proposent des fonctionnalités avancées, comme Zerobounce qui donne accès à un score d’activité pour chaque adresse email.

D’autres permettent de savoir si vous êtes blacklistés par certains fournisseurs d’accès internet. La tarification de ces outils est basée sur le nombre d’emails vérifiés. Comptez entre 20 et 60 euros pour 10 000 emails et entre 200 et 400 euros pour 100 000 emails.

nettoyage base de donnees outil bouncer

Solutions spécialisées : RNVP

La RNVP est l’action qui consiste à Restructurer, Normaliser et Valider (confronter les adresses avec le référentiel national) les adresses pPstales…
Le traitement RNVP permet de :

  • Limiter le nombre de plis non distribuables (PND, ou bounces) lors d’une campagne de marketing postal ou d’une livraison de colis.
  • Eviter qu’un représentant de votre entreprise (un commercial de terrain par exemple) se déplace chez un prospect ou un client en ayant la mauvaise adresse…
  • Bénéficier de tarifs d’affranchissement spécifiques. Les adresses RNVP donnent droit à une réduction des coûts d’affranchissement.

Ajoutons que le traitement RNVP est important pour deux raisons :

  • Les gens déménagent et les entreprises aussi.
  • Il y a plus de 200 000 changements de dénomination de voies par an sur le territoire français. On vous apprend peut-être quelque chose 🙂.

76310 et Cap Adresse sont deux bons outils de RNVP. Leur tarification est basée sur la taille de la base de données.

Nettoyer une base de données clients : Télécharger notre modèle Excel gratuit

Pour accéder à la ressource, il vous suffit de vous inscrire en quelques clics.
Au clic sur le bouton ci-dessous, vous arriverez sur un formulaire d'inscription rapide. Une fois inscrit, il y a un onglet "Ressources" qui apparaîtra dans le menu du haut qui vous permettra d'accéder à l'ensemble des ressources en téléchargement gratuit. Avec un peu de chance, vous aurez une bonne surprise, il y aura d'autres ressources qui vous seront utiles 😊

👉 Je m'inscris pour télécharger la ressource

LTV – Définition, calcul et cas d’usage de la Lifetime Value

Il y a un énorme paradoxe autour de la lifetime value : c’est sans aucun doute l’indicateur business le plus important, notamment en ecommerce…et pourtant seulement une minorité d’entreprises l’utilisent. Selon une étude anglaise, seulement 34% des marketers affirment savoir vraiment ce que signifie la lifetime value. Quand on connaît tout ce qu’on peut faire grâce à cet indicateur, c’est à tomber les bras à terre. Et on ne parle pas seulement de mesure, de reporting, mais aussi et surtout de potentiel d’activation.

Si vous souhaitez développer vos revenus, il n’y a pas vraiment d’hésitation à avoir : vous devez calculer et utiliser la lifetime value.

Découvrons ensemble ce qu’est la lifetime value et surtout comment l’exploiter intelligemment pour maximiser votre actif client.

Qu’est-ce que la Lifetime Value ou LTV ?

Définition

La lifetime value est un indicateur business qui consiste à estimer la somme des revenus générés par un client sur toute sa durée de vie.

La lifetime value est une estimation de la somme des revenus que génère un client tout au long de sa durée de vie.

C’est l’indicateur qui vous permet de savoir combien vous rapporte un client tout au long de sa relation avec votre entreprise, depuis son premier achat jusqu’au moment où il met fin à sa relation et n’achète plus.

Si un client vous génère en moyenne 50 euros de revenus par mois et qu’il reste client 3 ans, sa lifetime value sera de 50 x 12 x 3 = 1 800 euros. La lifetime value est une valeur monétaire, elle s’exprime en euro, par exemple.

On parle aussi, mais plus rarement, de « valeur client à vie », de « customer lifetime value ». L’acronyme LTV (ou CLTV) est quant à lui très répandu.

Quelques précisions s’imposent :

  • La lifetime value est la somme du revenu moyen (c’est-à-dire la marge) généré par un client tout au long de sa vie. MAIS, parfois, souvent même, on utilise le chiffre d’affaires à la place du revenu.
  • La lifetime value est une estimation. Par définition, il n’est pas possible de déterminer la lifetime value de M.Dupont avant qu’il ait mis fin à sa relation avec votre entreprise. Mais il est possible d’estimer sa lifetime value en fonction de son profil, des données à disposition de votre SI, de la lifetime value du segment client auquel il appartient, etc.
  • La lifetime value peut se calculer à plusieurs niveaux : au niveau global (tous vos clients), au niveau d’un segment client, voire au niveau de chaque client.

La Lifetime Value est un indicateur clé dans les secteurs d’activité pour lesquels la maîtrise des coûts d’acquisition est un enjeu clé. Cela concerne notamment :

  • Les business models d’abonnement, par exemple les business SaaS. 
  • Le Retail et le Ecommerce.

Zoom sur 4 cas d’usage de la Lifetime Value

Voici quelques cas usages typiques de la LTV. La liste est loin d’être exhaustive.

Cas d’usage #1 – Déterminer le coût d’acquisition client (CAC) cible

Le fait d’être en capacité d’estimer combien tel client va vous rapporter au total vous permet d’évaluer les investissements marketing et commerciaux maximum pour acquérir ce client. L’idée sous-jacente, c’est qu’il est bien sûr absurde de dépenser plus pour acquérir un client que les revenus que ce client apportera à l’entreprise.

Si vous savez que le client vous rapportera en moyenne 10 000 euros, vous pouvez certainement justifier un investissement de 3 000 euros pour le convertir. Les efforts marketing et commerciaux doivent toujours être proportionnés au revenu qu’on espère générer.

Dans la même optique, vous pouvez utiliser la LTV pour identifier le point mort, c’est-à-dire le moment où le seuil de rentabilité est atteint, où les revenus générés dépassent les coûts investis.

Le ratio LTV / CAC est très important.
Si le ratio est inférieur à 1, l’activité n’est pas viable, et si le ratio est supérieur à 3, c’est un très bon signe à condition que ce soit stable.
Ratio LTV CAC
Source : Ecommerce Finance Model Valuation

Cas d’usage #2 Cibler en priorité les clients les plus profitables

Nous supposons que vous avez déjà construit une segmentation client. Si c’est le cas, alors la LTV est l’un des indicateurs les plus pertinents pour évaluer la valeur de chaque segment. Nous vous encourageons vivement à calculer la LTV de vos différents segments. Vous identifierez de cette manière vos meilleurs segments. Vous pourrez ensuite imaginer des actions spécifiques pour ces clients VIP, en pensant bien à les chouchouter !

Ici comme tout à l’heure, l’indicateur de Lifetime Value apparaît comme un excellent outil pour optimiser les efforts et les investissements marketing.

La Lifetime Value permet d’évaluer qui sont vos meilleurs clients !

Octolis

Cas d’usage #3 – Détecter vos points faibles et vos axes d’amélioration

Tout le travail nécessaire pour calculer la Lifetime value va vous aider à identifier des points faibles ou en tout cas des axes d’amélioration de votre entreprise. L’utilisation de la Lifetime Value induit une manière de réfléchir résolument « customer centric » qui ne peut que vous éclairer sur beaucoup de choses ! Rien que pour cette raison et dans une démarche d’amélioration continue, calculer la Lifetime Value de ses clients, de ses segments, vaut la peine.

Cas d’usage #4 – Planifier votre budget publicitaire annuel

Cela rejoint ce que nous disions plus haut. Si vous connaissez votre LTV, vous pouvez plus facilement et plus précisément déterminer le budget à investir en acquisition, en campagnes publicitaires, etc.

Une introduction au calcul de la LTV


Maintenant que vous connaissez la définition de la Lifetime Value et que vous connaissez ses usages possibles, intéressons-nous à son calcul.

Une seule formule de calcul de la LTV ?

Non, il existe plusieurs formules pour calculer la Lifetime Value pour deux raisons :

  • Nous avons vu dans la première partie que la variable utilisée pour construire cet indicateur pouvait être la marge ou le chiffre d’affaires. Cela induit des formules de calcul différentes.
  • La formule de calcul dépend aussi du business model de l’activité. Cela nécessite quelques explications…

La formule de calcul de la LTV, en un sens, c’est toujours :

[Ce que me rapporte un client par mois] X [Durée de vie du client].

Mais le calcul du premier membre de la formule ([Ce que me rapporte le client par mois]) est directement lié au business model de l’activité. Dans une activité Ecommerce, ce que me rapporte un client se calcule par la formule Panier Moyen X Fréquence d’achat. Dans un business model d’abonnement, le calcul est plus simple : c’est le prix de l’abonnement.

Calcul de la LTV : marge ou chiffre d’affaires ?

Calculer la Lifetime Value en utilisant le chiffre d’affaires est beaucoup plus simple. Le calcul de la LTV à partir de la marge est plus complexe, mais permet seul d’avoir une vision de la performance financière.

La formule de calcul de la LTV en Ecommerce

En Ecommerce, la formule de la Lifetime Value est la suivante :

LFT = (Panier Moyen + Fréquence + Marge brute) / Taux de churn

Chaque élément de cette formule est lui-même un indicateur ayant une formule de calcul.

Panier Moyen

C’est le chiffre d’affaires divisé par le nombre de commandes. Une entreprise qui génère un CA de 1 000 000 € et qui a 30 000 commandes a un panier moyen de : 1 000 000 / 30 000 = 33 €.

Fréquence d’achat

La fréquence d’achat se calcule en divisant le nombre total de commandes par le nombre de clients (uniques). Si vous avez 1 000 commandes par an et 50 clients, la fréquence d’achat est de 1 000 / 50 = 20.

Marge brute

La marge brute, c’est le chiffre d’affaires moins les coûts d’achat, le tout divisé par le chiffre d’affaires puis multiplié par 100 pour obtenir un pourcentage.

Par exemple, si vous achetez un produit 50 euros et que vous le revendez 100 euros :

Marge brute = (100 – 50) / 100 = 0,5. 0,5 x 100 = 50%. Vous faites 50% de marge brute.

Taux de churn

Le taux de churn, ou taux d’attrition, calcule la perte de clients sur une période donnée. Il se calcule de la manière suivante :

Taux de churn = (Nombre de clients perdus à la fin de la période – Nombre de clients au début de la période) / nombre de clients au début de la période.

Là encore, on multiplie par 100 le résultat pour obtenir un pourcentage.

Prenons un exemple. Vous souhaitez calculer le taux d’attrition entre le 1er janvier et le 1er février. Vous aviez 110 clients au 1er janvier et vous avez 80 au premier février. Votre taux d’attrition est égal à : (80 – 110) / 110 = – 0,27.

Conseils pratiques pour améliorer la Lifetime Value en Ecommerce

L’amélioration de la lifetime value devrait être l’un des objectifs prioritaires de toute entreprise ecommerce. Justement, comment y parvenir ? Pour répondre à cette question, il faut reprendre chacun des termes de l’équation. L’amélioration de la lifetime value passe par l’amélioration d’une ou de plusieurs des variables qui constituent la formule de calcul que nous avons développé tout à l’heure. C’est-à-dire :

  • Augmenter le panier moyen et/ou
  • Augmenter la fréquence d’achat et/ou
  • Augmenter la marge brute et/ou
  • Diminuer le churn.

Nous allons vous donner quelques conseils pour améliorer chacune de ces variables. Sans prétendre, évidemment, à l’exhaustivité. Ce sont quelques pistes à explorer…

Améliorer le panier moyen

Augmenter le panier moyen consiste à faire en sorte que vos clients réalisent des commandes plus élevées. Comment ? En les incitant à ajouter plus de produits dans leur panier. Comment ? En leur proposant, pendant le parcours d’achat, des produits complémentaires. C’est ce que l’on appelle le cross-selling. Une autre option consiste à proposer à des clients des produits de gamme supérieure. On parle alors d’up-selling, très utilisé dans les univers de service mais aussi dans le retail.

Voici quelques pistes à explorer :

  • Proposer des produits personnalisés sur le site, faire des recommandations de produits basées sur les préférences des clients. Cela suppose, bien entendu, que le visiteur qui parcourt le site soit un visiteur connu.
  • Envoyer des campagnes emails personnalisées proposant des recommandations de produits basées sur l’historique d’achat et/ou d’autres informations sur vos clients (préférences d’achat, informations socio-démographiques…).
  • Mettre en avant des produits complémentaires ou similaires pendant le parcours d’achat, en fonction des produits ajoutés au panier.
  • Créer des packs de produits.
  • Offrir la livraison au-delà d’un certain montant d’achat.
  • Créer un programme de fidélité pour inciter les clients à acheter plus pour gagner des points/récompenses.

Améliorer la fréquence d’achat

Vous avez peut-être des clients qui achètent beaucoup, qui ont un gros panier moyen, mais qui achètent peu souvent…ou moins souvent que vous le voudriez. Il existe différentes techniques pour inciter les clients à acheter plus souvent et ainsi augmenter leur fréquence d’achat. Mais elles se réduisent pour l’essentiel à une chose : créer des campagnes et scénarios emails ou mobile (et même du marketing direct postal si vous utilisez ce canal). On pense aux campagnes promotionnelles ou aux scénarios de relance de panier abandonné (la relance de panier abandonné est un excellent moyen d’augmenter la lifetime value !).

Nous entrons ici dans les arcanes du marketing relationnel, dans le plan relationnel…C’est en communiquant de manière régulière et pertinente avec vos clients, en entretenant avec eux une relation clients en dehors des moments d’achat que vous parviendrez à les rendre plus fidèles et plus acheteurs. Le sujet est vaste. Sur ce vaste sujet, nous vous invitons à découvrir le guide complet sur le plan marketing relationnel publié par nos amis de chez Cartelis.

Améliorer la marge brute

Pour augmenter la marge brute, vous avez deux leviers :

  • Augmenter les prix.
  • Réduire les coûts d’achat des produits.

Voici deux pistes pour augmenter la marge brute :

  • Utiliser un gestionnaire de stocks pour être en capacité de bien estimer vos besoins de réapprovisionnement, limiter les stocks au nécessaire tout en évitant le risque de rupture de stock (fatal dans le secteur du ecommerce, où les clients veulent avoir tout tout de suite).
  • Commercialiser des produits à forte marge. C’est simple et logique ! Le taux de marge varie énormément d’un produit à l’autre. Vous devez identifier et commercialiser des produits à fort taux de marge, tout en restant dans votre univers. Vous pouvez aussi mettre en avant dans vos communications les produits ayant le plus fort taux de marge (cf. les recommandations de produits dont nous parlions plus haut).

Réduire le taux de churn

Le taux de churn est une métrique très complexe. Il y a beaucoup de raisons, de facteurs qui peuvent conduire un client à cesser d’acheter chez vous. Il n’y a pas de secrets pour réduire le churn : vous devez augmenter la rétention client, la fidélité client. Cela passe par :

  • La mise en place d’un plan relationnel béton,
  • Une compréhension sans cesse renouvelée des besoins de votre cible, afin d’ajuster vos offres en permanence dans le sens des attentes clients,
  • L’amélioration de l’expérience client à toutes les étapes des parcours clients : amélioration du site web, optimisation du service client, amélioration des services proposés ou offerts au client…

Calculer la Lifetime Value grâce à une Customer Data Platform

Le calcul et le suivi de la lifetime value suppose de disposer de données agrégées, consolidées, unifiées. La formule de calcul présentée plus haut met bien en évidence cette nécessité : vous devez connaître le panier moyen, la fréquence d’achat, la marge brute, les statuts des clients, les préférences clients, etc. Mais cette connaissance ne suffit pas, encore faut-il qu’elle soit unifiée, réunie dans un même système. C’est pour cette raison que notre dernier conseil sera le suivant : investissez dans une solution d’unification des données clients, transactionnelles, financières…

On ne peut pas raisonnablement mettre en place une stratégie basée sur la lifetime value sans avoir un Référentiel Client Unique. Les Customer Data Platforms représentent la solution moderne pour consolider et unifier les données clients (au sens large du terme, incluant les données transactionnelles…).

C’est à partir d’une solution de ce type que vous pourrez efficacement (et facilement) calculer la lifetime value et l’utiliser pour segmenter, personnaliser votre marketing relationnel. Pourquoi « facilement » ? Parce qu’avec une CDP, vous avez toutes les variables de la formule de la lifetime value dans un même endroit. Les lifetime values peuvent être calculées automatiquement dans la CDP une fois que vous avez connecté toutes les données nécessaires.

En clair : avec une CDP, vous pouvez connecter toutes vos données, calculer la lifetime value de tous vos clients et envoyer les segments/agrégats calculés à vos outils d’activation pour mieux communiquer avec vos clients…et augmenter leur lifetime value.

Octolis propose une solution CDP moderne pour exploiter vraiment votre base clients.
Nous avons publié un guide complet sur les Customer Data Platforms si vous souhaitez en apprendre davantage.

Conclusion

Dans le ecommerce, les opportunités de maximiser les revenus sont nombreuses. Les actifs clients sont généralement sous-exploités. La lifetime value est l’une des meilleures boussoles pour développer les revenus d’une activité ecommerce tout en restant résolument customer-centric. Nous avons vu ce qu’elle était, comment la calculer, pourquoi l’utiliser et comment l’améliorer. Maintenant…à vous de jouer !

Zoom sur les limites de Segment et les meilleures alternatives

Si Segment est de toute évidence une solution DMP et/ou CDP puissante et pertinente, elle n’est pas la plus appropriée à tous les business models.

La raison ? Les prix grimpent assez vite, surtout pour les acteurs du B2C, l’absence de base de données indépendante et la rigidité du modèle de données limitent votre capacité à renforcer votre business intelligence.

Pourquoi les alternatives solides ont-elles le vent en poupe ? L’émergence de la stack data moderne, à travers le rôle crucial de « source unique de vérité » que joue désormais votre data warehouse cloud, est en fait une excellente occasion d’évoluer vers une infrastructure plus légère, plus flexible grâce à une base de données indépendante, et surtout moins coûteuse pour la gestion des données de vos clients.

Vous hésitez à choisir Segment ? Vous cherchez des alternatives ? Nous avons préparé pour vous une belle ressource avec un passage en revue des alternatives aux principaux modules de Segment : Connections, Personas et Protocols.

Segment Alt resource

Accéder à notre comparatif des meilleures alternatives à Segment

Pour accéder directement au comparatif des meilleures alternatives à Segment, nous vous invitons à cliquer sur le bouton ci-dessus.

Qu’est-ce que Segment ?

D’un outil de webtracking à une CDP leader du marché

Fondé en 2011, Segment était à l’origine un outil de tracking web en mode SaaS permettant aux entreprises de tracker tous les événements qui se produisent sur le site web, de les rattacher à un ID utilisateur et de stocker tous les logs web dans un entrepôt de données. Avec un positionnement mid-market (PME-ETI) et B2B, Segment a été l’un des premiers outils à démocratiser l’extraction et le stockage des logs web à des fins de BI et de personnalisation de l’expérience client.

Petit à petit, Segment a élargi son spectre fonctionnel. La plateforme a développé ses capacités d’intégration avec les autres sources de données et outils de l’entreprise. D’un outil de webtracking, Segment est devenu une plateforme permettant de gérer les données CRM, marketing, commerciales, les données du service client…Bref, Segment est devenu une Customer Data Platform, capable de connecter, unifier et activer toutes les données clients (essentiellement first-party) de l’entreprise.

Allons même plus loin : Segment est l’un des principaux acteurs sur du marché CDP.  En 2020, Segment a généré un revenu de 144 millions de dollars et a été racheté par Twilio pour la coquette somme de 3,2 milliards de dollars. La start-up est devenue un géant et compte plus de 20 000 clients, dont IBM, GAP, Atlassian ou encore le Time magazine.

alternatives segment chiffres cles
Source : Get Latka.

À la découverte du périmètre fonctionnel de Segment

Segment permet essentiellement de (1) connecter les différentes sources de données clients de l’entreprise, de (2) construire une vision client unique et des audiences et, enfin, de (3) monitorer la qualité et l’intégrité des données. Ce sont les trois principaux modules proposés par la plateforme : Connections, Personas & Protocols.

#1 La connexion des données [Connections]

« Connecter » une source de données à une Customer Data Platform comme Segment consiste à générer des événements (events) liés au comportement des visiteurs du site web ou de l’application web. Segment transforme des comportements web en événements et les événements en données activables.

Pour mettre en place les connexions, Segment propose une bibliothèque d’APIs mais aussi, et c’est ce qui fait sa force, une vaste bibliothèque de connecteurs natifs.

segment connections catalog
Segment propose une vaste bibliothèque de connecteurs natifs (300+).

Outre l’impressionnante bibliothèque de sources et de destinations disponibles, Segment gère très bien :

  • La transformation des events. Certains types de données doivent être transformés avant d’être injectés dans d’autres outils de destination. Le module « Functions » permet de traiter des transformations d’événements de base avant de les envoyer à des applications externes avec « seulement dix lignes de JavaScript ». Segment propose également une fonction de transformation et d’enrichissement des données sans code qui n’est disponible que dans le cadre de son offre Business.
  • La synchronisation des données dans le data warehouse. Segment prend en charge les principales solutions de datawarehouse : Redshift, BigQuery, Postgres, Snowflake ou IBM DB2. Cependant, la fréquence de synchronisation est limitée à 1 ou 2 par jour avec les plans Free et Team. Elle peut être beaucoup plus courte, mais vous devrez passer au plan Business, qui est beaucoup plus coûteux.

La connexion aux sources de données est l’étape la plus technique dans Segment. Elle requiert l’implication de l’équipe Tech/Data.

#2 La vision client 360 et la construction de segments [Personas]

Une fois connectées, les données peuvent être unifiées autour d’un ID client unique. Segment offre un module (appelé « Personas ») qui permet de visualiser toutes les données rattachées à tel ou tel client et d’accéder à la fameuse « vision client unique » ou « vue client 360 ». Les données clients peuvent ensuite être utilisées pour construire des segments, c’est-à-dire des listes de contacts partageant des critères définis (socio-démographiques, comportementaux…). Les segments d’audience sont ensuite activables dans les outils de destination : MarTech et AdTech notamment.

Le module « Personas » de Segment est user-friendly, utilisable par les équipes métier en toute autonomie. Précisons que « Personas » n’est accessible que dans le plan « Business ».

segment alternatives

Bon à savoir

Comme pour la grande majorité des fonctionnalités avancées de Segment, Personas n’est disponible que dans l’offre Business.

#3 La gestion de la Data Quality [Protocols]

Le troisième module clé de la plateforme Segment est appelé « Protocols » et sert à monitorer la qualité et l’intégrité des données. Précisons qu’il existe de nombreuses solutions technologiques « Best of Breed » offrant des fonctionnalités de Data Quality avancées. Par exemple, Metaplane ou Telm.ai. Octolis, les fonctions de Data Quality sont natives, ce qui signifie concrètement que vous n’avez pas besoin d’investir un budget supplémentaire dans une solution ou un module tiers pour gérer la qualité de vos données.

Découvrez les alternatives à Segment

Vous connaissez maintenant les 3 principaux modules de Segment. Pour chacun de ces modules, nous vous proposons les meilleures alternatives.

segment alternatives ressource notion

Accéder à notre comparatif des meilleures alternatives à Segment

Les principaux inconvénients de Segment

Nous avons présenté Segment, son histoire, ses fonctionnalités. Incontestablement, Segment est un bon outil. Il serait absurde de remettre en cause cette évidence, mais Segment a plusieurs limites. C’est sur ces limites que nous aimerions attirer votre attention dans cette deuxième partie.

Il y a deux principales limites : des prix qui augmentent rapidement et un manque de contrôle des données.

Limite #1 – Les prix de Segment augmentent rapidement

Segment propose une tarification basée sur le nombre de visiteurs traqués par mois (MTU : monthly tracked users) sur les différentes sources (site web, application mobile…). Ce modèle tarifaire convient aux entreprises qui génèrent de gros revenus par utilisateur et ont des utilisateurs très actifs (plus de 250 événements par mois). Au-delà de 250 événements par mois et par utilisateur en moyenne, vous devez passer sur le plan « Business » de Segment avec des prix personnalisés (sur devis).

Si vous envisagez d’utiliser Segment comme Customer Data Platform, vous arriverez rapidement à un budget de 100 000 dollars par an, surtout si vous êtes une entreprise B2C. En B2C, le nombre d’événements, de segments et de propriétés est toujours plus élevé qu’en B2B.

Segment n’a pas su adapter son offre pour s’adapter aux besoins et aux contraintes des entreprises souhaitant utiliser la plateforme pour déployer des cas d’usage CDP.

alternatives segment pricing
Les 3 formules proposées par Segment

Prenons deux exemples :

  • Vous avez un site web qui totalise 100 000 visiteurs uniques avec trois pages vues par mois en moyenne par visiteur. L’abonnement mensuel, pour 100 000 visiteurs traqués, est à environ $1000 par mois.
  • Imaginons que le site dédié à votre CRM génère environ 8000 MTUs pour une moyenne de 200 événements par MTU. Dans ce cas, Segment vous coûtera environ $120 par mois car vous restez sous la limite des 10 000 MTU du plan Team.

Limite #2 – Segment ne vous donne pas un contrôle complet sur vos données

L’ensemble des logs est stocké sur les serveurs de Segment. Vous avez la possibilité d’envoyer tous les logs sur votre datawarehouse si vous en avez un, mais vous devrez payer un supplément. Il y a ici à notre avis un des principaux inconvénients d’une solution comme Segment.

A cause ou grâce au durcissement du droit en matière de protection des données personnelles (RGPD notamment), le sens de l’histoire veut que les données first party soient stockées par l’entreprise dans son entrepôt de données, et non dans les différents logiciels et services SaaS. C’est le meilleur moyen de garder un contrôle entier sur ses données.

Le fait que les logs soient stockés dans Segment pose d’ailleurs un autre problème : vous êtes contraints de vous plier à un modèle de données qui n’est pas forcément adapté à votre entreprise. Segment propose un modèle de données limité à deux objets : les utilisateurs et les comptes et, dans la plupart des cas, un utilisateur ne peut appartenir qu’à un seul compte.

Dans quels cas Segment peut rester un bon choix ?

Malgré les limites que nous venons de rappeler, Segment peut rester un choix pertinent dans certains cas précis. Pour schématiser, on peut dire que les entreprises qui réunissent les critères suivants peuvent trouver un intérêt à choisir cette plateforme :

  • Vous êtes une entreprise B2B, avec peu d’utilisateurs/clients.
  • Vous avez une petite équipe IT/Data.
  • Le volume d’événements est faible ou moyen.
  • L’argent n’est pas un problème pour votre entreprise.
  • Vous souhaitez déployer des cas d’usage standards.

À partir d’un certain niveau de maturité et de développement de vos cas d’usage, vous aurez des besoins plus avancés en termes de tracking, d’agrégats. Cela signifie que vous devrez activer le module « Personas » que nous vous avons présenté plus haut. Sachez que ce module additionnel est facturé en plus…et coûte très cher. À ce moment-là, vous serez confrontés à une alternative : rester sur Segment et être prêt à payer 100k€ par an…ou changer d’architecture et opter pour la mise en place d’une stack data moderne.

La Stack Data Moderne offre de plus en plus d’alternatives à Segment

Répétons encore une fois que Segment est indubitablement un très bon outil. Le problème n’est pas là. En revanche, nous pensons qu’il appartient à une famille d’outils (les CDP sur l’étagère) qui est déjà dépassée.

Les limites des CDP sur l’étagère

Les Customer Data Platforms sur l’étagère ont connu leur heure de gloire à la fin des années 2010. On assiste depuis quelque temps à l’émergence de nouvelles approches pour collecter, unifier et transformer les données clients. Nous vous présenterons dans un instant l’approche moderne, mais avant voici les principales limites des Customer Data Platforms sur l’étagère dont Segment fait partie :

#1 Les CDP ne sont plus la source unique de vérité

De plus en plus, c’est le sens de l’histoire comme nous l’avons vu, les données sont stockées et unifiées dans des datawarehouse cloud comme BigQuery, Snowflake ou Redshift. Les données centralisées dans le datawarehouse (DWH) sont utilisées pour faire du reporting et de la BI. Le DWH centralise TOUTES les données, contrairement aux Customer Data Platforms qui ne contiennent que les données générées via les sources connectées : essentiellement des données clients au sens large.

#2 Les CDP ont tendance à générer des silos de données

Il y a deux raisons principales. Premièrement, les CDP sont conçues By Design pour les équipes marketing. Les éditeurs mettent clairement en avant cette caractéristique….sauf que ça n’a pas que du bon. Pourquoi ? Parce que ça conduit les équipes marketing d’une part et les équipes data d’autre part à travailler chacune dans leur coin sur des outils différents. On se retrouve avec deux sources de vérité :

  • La Customer Data Platform pour l’équipe marketing.
  • Le datawarehouse ou le data lake pour l’équipe IT.

Une CDP autonomise l’équipe marketing vis-à-vis de l’IT mais favorise le cloisonnement des deux fonctions, et in fine leur désalignement.

Nous sommes au contraire convaincus que les équipes marketing et IT/Data doivent travailler main dans la main.

#3 Les CDP standards ont des capacités limitées de préparation & transformation des données

Les Customer Data Platforms conventionnelles ont des fonctionnalités limitées en termes de transformation des données. Ce problème fait d’ailleurs écho à la problématique des modèles de données. Les transformations de données ne sont possibles que dans le cadre des modèles de données imposés.

Le manque de flexibilité des modèles de données offerts (ou imposés…) par les CDP conduit à organiser les données d’une manière qui ne fait pas toujours sens d’un point de vue business.

#4 Le manque de contrôle des données

Nous avons déjà mis en relief ce problème. Le fait de stocker toutes les données dans votre CDP pose des problèmes de privacy et de sécurité. Il devient de plus en plus incontournable de stocker les données en dehors des logiciels, dans une base autonome gérée par l’entreprise elle-même. Ce qui nous amène au point suivant.

Le contrôle des données, pourquoi faire ?

Le contrôle des données n’est pas un « nice to have », c’est un must have. Découvrez pourquoi il est capital de garder le contrôle de ses données.

La montée en puissance des Data Warehouses Cloud

En une décennie, beaucoup de choses ont changé dans la manière de collecter, d’extraire, de faire circuler, de stocker, de préparer, de transformer, de redistribuer et d’activer les données. L’évolution la plus importante est à trouver dans la place centrale que jouent désormais les datawarehouse cloud modernes. Le DWH devient le pivot du système d’information, le centre de l’architecture IT autour duquel gravitent tous les autres outils.

Amazon a joué un rôle décisif dans cette révolution, avec le lancement de Redshift en 2012. C’est l’effondrement des coûts de stockage et l’augmentation exponentielle de la puissance de calcul des machines qui a changé la donne. Cela a entraîné une démocratisation des datawarehouses. Aujourd’hui, une petite entreprise avec des besoins limités peut utiliser Redshift pour quelques centaines d’euros par mois. Pour information, la licence annuelle d’un datawarehouse classique, « On-Premise », atteint facilement les 100k€…

stack data moderne
Schéma type d’une stack data modern, avec le cloud data warehouse comme pivot.

Les datawarehouse clouds sont devenus le nouveau standard pour la plupart des organisations. Ils sont utilisés pour stocker toutes les données, notamment les données clients mais pas que. Toutes les données de l’entreprise peuvent y être centralisées et organisées.

Comprendre le rôle des Reverse ETL

Les solutions de datawarehouse cloud ont connu un essor important depuis 2012. Les Gafam se sont presque tous engagés sur ce marché : Google a développé BigQuery, Microsoft a lancé Azure, etc. On a aussi vu l’émergence de purs players comme Snowflake par exemple qui connaît une croissance ébouriffante.

alternatives segment snowflake stats
Source : Get Latka.

Mais il manquait une brique fonctionnelle permettant de synchroniser les données du datawarehouse dans les logiciels d’activation, pour ne pas que le datawarehouse ne serve qu’à faire du reporting. Une nouvelle famille d’outils est apparue à la fin toute fin des années 2010 pour remplir cette fonction : les Reverse ETL.

Un Reverse ETL synchronise les données du DWH dans les outils opérationnels : Ads, CRM, support, Marketing Automation…Il fait donc l’inverse d’un ETL qui, lui, sert à faire remonter les données dans le datawarehouse. D’où le nom « Reverse ETL ». Avec un Reverse ETL :

  • Vous gardez le contrôle de vos données, car celles-ci restent dans votre data warehouse : le Reverse ETL est un outil de synchronisation. Vos données ne quittent jamais le DWH.
  • Vous pouvez créer des modèles de données personnalisés, loin d’être limités aux deux objets proposés par Segment (utilisateurs et comptes).

Les data warehouses modernes et les Reverse ETL dessinent une nouvelle architecture : la stack data moderne. Avec ces deux technologies associées, votre data warehouse devient votre CDP. Cette architecture rend possible la mise en place de l’approche « Operational Analytics » qui, en un mot, consiste à mettre les données au service des opérations business et non plus uniquement au service de l’analytics.

A la découverte de la Stack Data Moderne

La stack data moderne est l’architecture consistant à faire du data warehouse la source unique de vérité du SI et à utiliser un Reverse ETL pour activer les données du DWH dans les logiciels opérationnels. Découvrez notre guide complet sur la Stack Data Moderne.

 

Accéder à notre comparatif des meilleures alternatives à Segment

Pour accéder à la ressource, il vous suffit de cliquer sur le bouton ci-dessous
Une fois dans notre espace dédiée, vous découvrirez d'autres ressources structurantes, les plus complètes nécessitent une inscription rapide mais sont toutes gratuites ! Avec un peu de chance, vous aurez une bonne surprise, il y aura d'autres ressources qui vous seront utiles 😊

👉 J'accède directement à la ressource

Pourquoi nous lançons Octolis ?

first product usage
Premier test utilisateur après des mois de développement

Nous sommes très heureux de lancer officiellement Octolis en ce mois de janvier 2022.

Pour ne pas connaître la même déconvenue que le concepteur de ce labyrinthe, nous avons développé Octolis en nous appuyant très tôt sur des feedbacks clients.

Cela fait quasiment un an que nous avons des clients qui utilisent la première version du produit, dont de belles marques comme KFC ou Le Coq Sportif. On est resté discrets, et on a énormément travaillé pendant des mois avec quelques clients pour améliorer notre produit, encore et encore.

Et maintenant, il est temps d’ouvrir les portes, Octolis est désormais accessible à toutes les entreprises qui le souhaitent !

Nous avons beaucoup à dire sur les raisons qui nous ont poussées à lancer Octolis. Si vous n’avez pas le temps de tout lire, voici ce que pouvez retenir en quelques mots :

  • Nous sommes convaincus que la montée en régime des datawarehouses cloud modernes va profondément changer les organisations. Quand toutes les données de l’entreprise sont stockées dans un entrepôt, je peux utiliser cet entrepôt pour alimenter toutes mes équipes, tous mes outils. Octolis, c’est en quelque sorte le logisticien de vos données.
  • Nous allons donner aux PME les moyens de devenir vraiment “data driven”. Pas pour créer des reportings à peine utilisés, pas pour faire un énième POC de machine learning qui ne sera jamais mis en production, mais pour améliorer les actions du quotidien.
  • Nous avons développé la solution de data management qu’on aurait aimé avoir dans nos précédentes expériences. Une solution suffisamment simple pour être utilisée par des marketers, et ouverte/souple pour les équipes tech/data.

Le problème classique du silotage des données

Clément et moi, nous sommes rencontrés chez Cartelis, où nous avons été consultants data pendant des années. On a eu la chance de travailler pour des entreprises avec des tailles et des niveaux de maturité digitale très variées, de belles start-up comme Openclassrooms, Blablacar ou Sendinblue, mais aussi des entreprises plus traditionnelles comme RATP, Burger King ou Randstad.

Dans quasiment toutes les entreprises pour lesquelles nous avons travaillé, il y avait de gros challenges autour de la réconciliation des données clients.

Le problème est assez simple en apparence. Toutes les équipes aimeraient disposer d’un maximum d’informations sur chaque client dans les outils qu’elles utilisent au quotidien. Les équipes commerciales veulent voir dans leur logiciel CRM si le client a utilisé le produit récemment pour le relancer au bon moment, les équipes marketing veulent mettre en place des messages automatisés après qu’un client se soit plaint auprès du service client ou qu’il ait visité une page spécifique du site internet, le service client veut prioriser les tickets clients en fonction de la taille et du risque de perdre un client, etc.

Les outils qui permettent d’interagir avec les prospects / clients sont de plus en plus puissants, mais ils sont sous-exploités car on a du mal à les alimenter avec toutes les données dont on a besoin. La raison principale, c’est qu’on a des données intéressantes partout. Les parcours clients sont complexes, les interactions entre l’entreprise et ses clients reposent sur de plus en plus de canaux et d’outils différents (application mobile, chat automatisé, marketing automation, retargeting publicitaire, service client, etc.), cela génère une quantité phénoménale de données potentiellement utilisables pour personnaliser la relation client.

Pour répondre à ce challenge, la plupart des entreprises commencent de manière pragmatique par mettre en place des tuyaux entre les outils. Pour chaque projet, on met en place de nouveaux tuyaux grâce à des outils simples en apparence comme Zapier ou Integromat. Évidemment, cela devient très vite un gros sac de nœuds, difficile à maintenir et à faire évoluer.

silos de données

Ensuite vient le moment où on juge qu’il est temps de centraliser toutes les données clients au même endroit. On liste les nombreux avantages (connaissance client complète, accélération des projets, ..) pour justifier du ROI potentiel, on définit un budget cible, et on prend son souffle pour se lancer dans un gros projet “Référentiel Clients (Unique)” ou “Base clients 360” qui fait peur.

La grosse question, c’est de savoir quelle forme va prendre ce fameux référentiel clients complet. Les options envisagées la plupart du temps sont principalement :

  • Une solution déjà existante : CRM ou ERP
  • Une base de données sur mesure
  • Une solution logicielle dédiée à cet objectif, une “Customer Data Platform”

reconciliation des données

En réalité, la source de vérité unique existe déjà dans beaucoup d’entreprises, ça s’appelle un “datawarehouse”.

Historiquement le datawarehouse est une base de données qui sert de socle pour des analyses, et non pour des usages opérationnels. Les solutions utilisées comme datawarehouses étaient construites pour supporter de grosses requêtes ponctuelles, avec des données mises à jour une fois par jour au mieux. Désormais, les datawarehouses modernes peuvent supporter tout type de requêtes, en quasi-temps réel, à un prix beaucoup plus compétitif, sans effort de maintenance, et ça change tout.

La stack data moderne définit un nouveau paradigme

Le gros changement des dernières années, c’est la montée en régime d’une nouvelle génération de datawarehouse cloud (Snowflake, Google BigQuery, Firebolt, ..). L’introduction en bourse record de Snowflake en 2020, avec une valorisation qui continue d’augmenter, est le reflet financier de cette rupture majeure. Cela fait pourtant des années qu’Oracle, IBM ou Microsoft proposent des solutions de type “Data warehouses” (ou Data Lakes), qu’est ce qui a changé concrètement ?

La nouvelle génération de datawarehouses cloud dispose de 3 avantages majeurs :

  • Rapidité / puissance : on peut accéder à une puissance de calcul phénoménale par rapport aux standards de 2010 en quelques clics.
  • Prix : le découplage entre le stockage et le traitement des données a réduit significativement le coût de stockage. On paie à l’usage, en fonction des requêtes réalisées, mais stocker de gros volumes de données ne coûte quasiment plus rien.
  • Accessibilité : la mise en place et la maintenance sont beaucoup plus simples, il n’est plus nécessaire d’avoir un régiment d’ingénieurs réseau pour gérer un datawarehouse.

Voici un très bon article sur le sujet des datawarehouse écrit par nos amis de Castor si vous souhaitez en savoir plus.

Grâce à ces innovations, l’adoption des datawarehouses cloud explose, et c’est tout un nouvel écosystème qui est en train de se structurer autour.

  • Des outils “Extract Load (Transform)” comme Airbyte ou Fivetran pour alimenter le datawarehouse avec les données présentes dans tous les applicatifs internes.
  • Des outils comme DBT pour transformer les données directement dans le datawarehouse.
  • Des outils comme Dataiku pour faire des projets de data science directement dans votre datawarehouse.
  • Des outils de reporting comme Metabase ou Qlik
  • Et désormais des outils d’activation (ou reverse ETL dans la novlangue martech) comme Octolis pour enrichir les outils opérationnels à partir des données du datawarehouse.

Si le sujet de la stack data moderne vous intéresse, on a écrit un article plus complet sur le sujet.

Le datawarehouse moderne devient un socle pour l’analyse et l’opérationnel

Il est désormais possible d’utiliser le datawarehouse comme un référentiel opérationnel. On peut assez facilement construire l’équivalent d’une Customer Data Platform dans un datawarehouse, c’est ce que certains experts appellent l’approche Headless CDP.

C’est une tendance de plus en plus populaire dans les entreprises matures, qui aura un impact significatif sur l’ensemble de la chaîne de valeur du SaaS. Dans cet article, David Bessis, le fondateur de Tinyclues, insiste sur le fait que cette évolution va limiter la dépendance aux solutions logicielles complètes proposées par Adobe / Salesforce / Oracle. Cela peut expliquer pourquoi Salesforce a investi significativement dans Snowflake d’ailleurs…

Les avantages d’utiliser le datawarehouse comme socle des outils opérationnels sont nombreux.

  • Limiter le travail d’intégration / traitement de données, on importe les données à un seul endroit, on les transforme une seule fois, et elles servent partout ensuite.
  • Garder le contrôle des données, et faciliter le passage d’une solution logicielle à l’autre.
  • Aligner l’analyse et l’action, ce sont les mêmes données qui servent pour les reportings et pour alimenter les outils. Quand un analyste calcule une fréquence d’achat, cela peut aussi servir dans les outils CRM ou emailing.

Cela permet d’accélérer de nombreux projets qui étaient compliqués jusqu’à présent. On pense forcément aux cas d’usages classiques d’une “Customer Data Platform” :

  • vision 360 de chaque prospect / client avec toutes les interactions associées à chaque individu
  • segmentations / scorings avancés utilisables dans les outils marketing
  • utilisation des données “first party” dans les campagnes d’acquisition pour cibler des profils similaires à vos meilleurs clients, relancer les non-ouvreurs emails ou utiliser la LTV comme indicateur de succès des campagnes.

Mais on peut penser aussi à des cas d’usages moins centrés sur les données clients, comme par exemple :

  • enrichir un moteur de recommandations produit du stock produit disponible ou de la marge par produit.
  • créer des “events web” à partir des appels téléphoniques ou des achats offline pour avoir une vision complète des parcours clients dans les outils d’analytics web.
  • générer des alertes Slack quand une campagne Adword est mal paramétrée ou un lead mal complété sur Salesforce.

Jusqu’à présent, les entreprises qui utilisaient leur datawarehouse pour des usages opérationnels mettaient en place des connecteurs sur mesure pour envoyer les données du datawarehouse vers les outils métiers. Ces connecteurs peuvent être assez complexes à mettre en place car il faut gérer des problèmes de format de données, des flux en “batch” ou en temps réel, des quotas API, etc. Et puis il faut maintenir ces connecteurs une fois qu’ils sont mis en place.

Une nouvelle catégorie d’outils est en train d’émerger pour faciliter la synchronisation des données du datawarehouse aux outils métiers. Même si le terme ne fait pas encore consensus, c’est le concept de “Reverse ETL” qui est le plus souvent utilisée pour parler de cette nouvelle catégorie d’outils.

Octolis permet à toutes les PME de s’équiper pour exploiter leurs données dans leurs outils existants

La plupart des start-up matures ou des grandes entreprises disposant d’une belle équipe d’ingénieurs data ont déjà mis en place ce type d’architecture, mais on en est encore très loin dans la plupart des entreprises de taille moyenne.

Cela va s’accélérer à pleine vitesse dans les prochaines années. L’écosystème autour de la “stack data moderne” a beaucoup mûri, et les décideurs sont de plus en plus conscients que la maturité data est un axe prioritaire dans les prochaines années.

Le blocage est souvent humain, les compétences en ingénierie data sont rares et chères.

Octolis veut devenir la solution de référence pour les PME / ETI qui veulent passer un gros palier dans l’exploitation de leurs données sans disposer d’une équipe d’ingénieurs data.

On propose une solution clé en main qui permet de :

  • Centraliser les données de différents outils dans un datawarehouse
  • Croiser et préparer ses données facilement, pour avoir de belles tables de référence avec les clients, achats, produits, contrats, magasins, etc.
  • Synchroniser les données avec les outils opérationnels : CRM, Marketing Automation, Ads, Service client, Slack, etc.

Octolis

Nous sommes convaincus chez Octolis qu’il est possible de donner de l’autonomie aux équipes marketing tout en laissant un certain niveau de contrôle aux équipes IT.

L’interface du logiciel Octolis est suffisamment simple pour qu’un marketer puisse croiser / préparer des données, et les envoyer où il en a besoin. Cette simplicité ne signifie pas qu’il s’agit d’une boîte noire. Les données sont hébergées dans la base de données ou le datawarehouse de chaque client, accessible par les équipes IT à tout moment, sur laquelle on branche un outil de reporting.

Avec Octolis, une PME peut disposer d’un socle solide pour monter ses reportings, et surtout pour accélérer tous ses projets marketing / sales.

Le potentiel est énorme, les cas d’usages sont innombrables, et nous nous levons très motivés tous les matins pour améliorer encore et encore le produit et aider nos clients à exploiter pleinement le potentiel de leurs données !

Reverse ETL – Définition & analyse de cette nouvelle catégorie d’outils

Les solutions ETL (ou ELT) permettent d’extraire les données de différentes applications pour les verser dans un data warehouse. Comme vous l’avez deviné, le reverse ETL va dans l’autre sens. Il permet d’extraire les données du data warehouse pour alimenter toutes sortes d’applications : CRM, outils publicitaires, service client, etc.

Le potentiel est colossal. Cela permet d’avoir une seule source de vérité pour la plupart des applicatifs métiers. Fini les problèmes récurrents pour réconcilier les données de l’outil A avec l’outil B, ou pour gérer des flux entre applicatifs de tous les côtés.

Si le potentiel est aussi important, pourquoi ce type de solution émerge maintenant ? Historiquement le data warehouse est le socle de la BI uniquement. Il sert à construire des reportings, de grosses requêtes ponctuelles qui ne sont pas critiques. Si on demandait à un DSI des années 2000, ce serait une aberration d’alimenter un CRM, une application critique qui consomme des données chaudes, à partir d’un data warehouse.

La nouvelle génération de Data Warehouse cloud (Snowflake, Google BigQuery, AWS Redshift, ..), et l’écosystème qui va autour, change les règles du jeu. Beaucoup plus puissant, facile à maintenir, adapté pour tout type de requêtes, le data warehouse cloud moderne peut devenir un véritable référentiel opérationnel. Et les reverse ETL, c’est le chainon manquant pour assurer le dernier kilomètre.

Dans ce guide complet, nous allons vous expliquer tout ce qu’il faut savoir sur cette nouvelle composante de la stack data moderne.

Qu’est-ce qu’un reverse ETL ? [Définition]

Généalogie du reverse ETL : au commencement était l’ETL

Le reverse ETL désigne une nouvelle famille de logiciels jouant déjà un rôle clé dans la stack data moderne. Alors, qu’est-ce que c’est ? De quoi parle-t-on ?Cela n’aura échappé à personne, dans « reverse ETL », il y a ETL. Pour comprendre ce qu’est un reverse ETL, il faut d’abord avoir une bonne compréhension de ce qu’est un ETL. Car le reverse ETL procède de l’ETL comme nous le verrons dans un instant.

Le « bon vieil ETL »…oui, car les outils ETL sont tout sauf des technologies nouvelles. Le concept d’ETL a émergé dans les années 1970.

etl google trends
Source : Google Trends

ETL, si on déplie l’acronyme, signifie Extract – Transform – Load. Avant de désigner une famille d’outils, l’ETL désigne un processus – un processus que les outils du même nom permettent d’accomplir. L’ETL est le processus qui consiste à Extraire les données issues des différentes sources de données de l’organisation, à les Transformer et enfin à les Charger (Load) dans un Data Warehouse, c’est-à-dire un entrepôt de données. Les outils ETL servent à construire le pipeline de données entre les sources de données et la base dans laquelle les données sont centralisées et unifiées.

Les sources de données peuvent être : des événements issus des applicatifs, des données issues de vos outils SaaS, de vos bases de données diverses et variées, et même de votre data lake…Les outils ETL développent des connecteurs avec les principales sources de données pour faciliter la construction du pipeline de données.

fivetran connecteurs
Fivetran propose plus de 150 connecteurs avec des sources de données.

Les ETL du passé étaient des solutions lourdes, On-Premise, fonctionnant avec des Data Warehouses eux-mêmes lourds installés sur les serveurs de l’entreprise. Depuis l’avènement des Data Warehouses Cloud (en 2012, avec Amazon Redshift), une nouvelle catégorie de logiciels ETL est apparue : les ETL Cloud. La cloudification des Data Warehouses, inaugurée par Amazon, a entraîné une cloudification des outils ETL. Fivetran et Stitch Data sont deux exemples emblématiques d’outils ETL Cloud.

Les ETL servent non seulement à charger les données des sources dans la destination que constitue le DWH, mais sont aussi utilisés pour transformer la donnée avant son intégration dans la base. Ce n’est donc pas simplement une tuyau, mais aussi un laboratoire.

Nous pouvons maintenant comprendre en quoi consiste le reverse ETL.

Un reverse ETL est une solution pour synchroniser les données du DWH avec vos applicatifs métiers

En clair, l’outil ETL permet de faire monter les données de vos différentes sources dans le DWH afin de centraliser et d’unifier les données de l’entreprise. Ces données sont ensuite utilisées pour faire de l’analyse data, de la BI.

Le reverse ETL a une fonction inverse de celle de l’ETL. Le reverse ETL est la solution technologique qui permet de faire redescendre les données centralisées du DWH dans les applicatifs métiers. Le reverse ETL apporte enfin la solution à un problème lancinant pour les entreprises. En effet, les entreprises parviennent assez bien et assez facilement à centraliser les données dans le Data Warehouse. Cette facilité, c’est aux ETL Cloud qu’on la doit. Mais ces données, une fois dans le DWH, sont difficiles à faire sortir de la base et à exploiter dans les outils métiers. En clair, elles sont utilisées pour faire de la BI, mais rarement exploitées pour alimenter les applicatifs métiers en l’absence de solutions simples de synchronisation.

reverse etl data warehouse

Le reverse ETL est une solution d’intégration des données souple pour synchroniser les données du DWH avec applicatifs utilisés par le marketing, les sales, l’équipe digital et le service client pour ne citer qu’eux. Les reverse ETL se caractérisent par leur souplesse et leur simplicité d’utilisation, tout comme leurs aînés les outils ETL Cloud. Via des connecteurs et modulo un travail de SQL, les données sont préparées, transformées, mappées puis synchronisées dans les applicatifs métier. Les reverse ETL permettent même de se passer des requêtes SQL et d’éditer les flux depuis une interface visuelle. Vous choisissez la colonne ou la table de la base de données que vous voulez utiliser et vous créez le mapping depuis l’inrerface visuelle pour spécifier où est-ce que vous souhaitez que les données apparaissent dans Salesforce, dans Zendesk, etc. Plus besoin de scripts. Plus besoin d’APIs.

Une fois le flux en place, les données sont synchronisées dans les applicatifs non pas en temps réel, mais suivant des batchs très courts de l’ordre de la minute. Les reverse ETL, comme Octolis, sont basés sur une approche que l’on appelle « tabular data streaming », vs l’approche « event streaming ». Ce que fait le reverse ETL, c’est copier et coller à intervalles très réguliers les tables du système source (le DWH) dans le système cible (l’applicatif métier).

Tout comme les outils ETL, les reverse ETL ne sont pas uniquement des tuyaux. Ils permettent de transformer les données du DWH, de les préparer, c’est-à-dire de nettoyer les données, de créer des segments, des audiences, des scorings, de construire un référentiel client unique.

Pourquoi les solutions reverse ETL ont le vent en poupe aujourd’hui ?

Maintenant que nous savons ce qu’est un Reverse ETL et comment ça fonctionne schématiquement, intéressons-nous un peu plus au « pourquoi ».

Pourquoi vouloir sortir les données du DWH ?

Il a fallu des années pour que les entreprises parviennent à centraliser et unifier leurs données dans une base maîtresse : le Data Warehouse Cloud. Et encore… beaucoup d’entreprises n’en sont pas encore là et ne disposent toujours pas de référentiel unique.

Mais pourquoi vouloir aller plus loin et faire sortir les données que l’on a soigneusement centralisées dans le Data Warehouse ?

D’abord, il faut bien se dire que les données restent quoi qu’il en soit dans le Data Warehouse. Le reverse ETL synchronise des set de données dans les applicatifs métiers, sans les déplacer au sens strict. Synchroniser ne veut pas dire migrer. Donc pas de panique, vos données restent au chaud dans le DWH.

Ce que fait le reverse ETL, c’est mettre ces données centralisées du DWH au service des applicatifs métiers. C’est bien connu, le médicament est à la fois remède et poison. On a utilisé jusqu’à présent le DWH comme remède au silotage des données…pour aboutir à une nouvelle forme de silotisation. Les données aujourd’hui, dans beaucoup d’entreprises, sont silotées dans le Data Warehouse. Sans un reverse ETL, les données stockées dans le DWH ne sont pas utilisées ou très peu par les applicatifs métiers. A quoi servent-elles ? A faire de la BI et du dashboarding comme nous l’avons dit plus haut. C’est dommage. Le DWH aboutit à la création de définitions et d’agrégats de données très intéressants pour le business, grâce à tout le travail réalisé avec SQL : la lifetime value, le marketing qualified lead, le product qualified lead, le score de chaleur, l’ARR, etc. Mais ces données signifiantes pour le business ne sont pas utilisées directement par les équipes business et les outils qu’elles utilisent.

Avec un reverse ETL, vous pouvez utiliser ces définitions, et les colonnes associées dans le DWH, pour créer de profils clients et des segments d’audience. Avec un reverse ETL, le Data Warehouse ne sert plus uniquement à alimenter la BI, il sert directement à alimenter les applicatifs métier.

stack data moderne

Le reverse ETL était la pièce manque de la stack data, la pièce qui empêchait cette stack data d’être véritablement moderne.

Quels sont les cas d’usage d’un reverse ETL ?

Entrons un peu plus dans le concret et voyons quels sont les cas d’usage que rend possible un outil de type reverse ETL.

Il y a essentiellement trois familles de cas d’usage :

#1 L’Operational Analytics

Cette nouvelle expression désigne une nouvelle manière d’envisager l’analytics. Dans l’approche Operational Analytics, les données ne sont plus utilisées seulement pour créer des rapports et des analyses, mais sont distribuées intelligemment aux outils métiers. C’est l’art et la manière de rendre la donnée opérationnelle pour les équipes métiers en l’intégrant dans les outils qu’ils utilisent au quotidien. Si l’on y réfléchit, c’est l’approche qui permet vraiment de devenir data-driven, qui permet aux équipes de prendre en compte les données dans toutes leurs décisions et actions. Le tout en douceur, simplement, facilement, sans prise de tête, sans passer par la lecture de rapports de BI indigestes.

Comment déployer cette approche « Operational Analytics » ? Comment devenir data-driven ? Réponse : en utilisant un reverse ETL bien sûr ! Le reverse ETL permet de transformer les données en analyses (en segments, en agrégats) et les analyses en actions.

Imaginez un commercial qui veut connaître les comptes clés, ceux sur lesquels concentrer ses efforts ? Dans l’approche classique, à l’ancienne, on fait appel à un data analyst qui va utiliser du SQL pour repérer les leads à forte valeur dans le DWH et ensuite présenter le tout dans un beau tableau de BI…que personne ne lira et n’exploitera, bien entendu. On peut chercher à former les commerciaux à la lecture des tableaux de bord et des reportings. Mais dans la pratique, c’est toujours compliqué et c’est ce qui freine le devenir data-driven de beaucoup d’organisations. C’est cette difficulté à mettre les données et les analyses à la disposition des équipes métier qui empêche la pleine exploitation des données à disposition de l’entreprise.

Dans l’approche Operational Analytics, plus besoin de former les commerciaux à l’utilisation des rapports de BI, le data analyst intègre directement les données correspondantes du Data Warehouse dans un champ personnalisé Salesforce.

Un reverse ETL permet à un data analyst de déployer l’Operational Analytics aussi facilement que de créer un rapport.

#2 L’automatisation des flux de données

Un reverse ETL permet de mettre facilement et automatiquement au service des équipes métiers les données dont elles ont besoin à un instant t. En clair, non seulement il met à disposition des équipes métier les données dont ils ont besoin dans leurs outils, mais il facilite le travail des data analysts et autres data engineers.

Par exemple, si votre équipe commerciale demande à l’IT quels sont les clients à fort risque d’attrition, un reverse ETL constitue la solution qui permet de facilement donner la réponse…sans avoir à passer un temps fou à extraire les données du DWH. On pourrait aussi prendre les exemples :

  • D’un commercial qui veut pouvoir visualiser dans Salesforce les clients ayant une lifetime value supérieure à X€.
  • D’un conseiller de clientèle qui veut pouvoir visualiser dans Zendesk les comptes ayant opté pour le support premium.
  • D’un responsable produit qui veut accéder aux feedbacks Slack des utilisateurs ayant déployés telle fonctionnalité.
  • Du comptable qui veut synchroniser les attributs clients dans son logiciel de comptabilité.
  • Etc.

cas usage reverse etl

Le reverse ETL permet de gérer facilement et de manière automatisé ces requêtes métiers du quotidien qui faisaient autrefois l’enfer de l’équipe IT. Il répond en ce sens à un problème récurrent dans les organisations : la communication, ou plutôt la mauvaise communication entre l’IT et les équipes métiers. Plus besoin de concevoir des APIs à la pelle. L’harmonie entre l’IT et le métier est rétablie.

#3 Le reverse ETL, une solution à la multiplication des sources de données

Les sources de données se multiplient. L’un des enjeux de la stack data moderne est de gérer cette multiplication des sources de données. Le reverse ETL répond à cet enjeu. Il permet de tirer profit de cette formidable mine d’or de données à disposition pour créer une expérience client mémorable. Car, in fine, c’est bien la finalité. Ou plutôt les deux finalités :

  • Pour le client : Lui offrir une expérience plus riche, plus pertinente grâce à des actions plus personnalisées, plus ciblées au niveau du contenu, du canal de diffusion, du moment de réalisation. Générer plus de satisfaction client.
  • Pour l’entreprise : Augmenter la rétention client et développer le revenu par client.

Le reverse ETL permet de transformer la connaissance client qui est produite grâce au couple DWH – BI en expérience enrichie pour le client.

Deux alternatives aux logiciels reverse ETL : la Customer Data Platform & l’iPaaS

Il existe des alternatives aux logiciels reverse ETL et notre article ne serait pas complet si nous ne les mentionnions pas.

Reverse ETL vs CDP

Les Customer Data Platforms connaissent un essor important depuis le milieu des années 2010. Une CDP est une plateforme sur-l’étagère qui permet de construire un référentiel client unique en connectant toutes les sources de données de l’organisation. En ce sens, la CDP est une alternative au Data Warehouse. L’avantage par rapport au Data Warehouse, c’est que la CDP n’est pas qu’une base de données destinée à des usages de BI. La CDP propose des fonctionnalités avancées pour :

  • Préparer la donnée en vue des cas d’usage métiers : segmentation, création d’agrégats, de scores…
  • La redistribuer, via des connecteurs natifs ou sur-mesure, aux applicatifs métiers.

En clair, la CDP joue le même rôle que le couple DWH – reverse ETL. Il n’y a d’ailleurs pas nécessairement à choisir entre CDP et DWH. Une même entreprise peut en effet associer :

  • Un Data Warehouse qui servira à la BI.
  • Une Customer Data Platform qui permettra d’activer les données clients, de les mettre à la disposition des équipes métiers.

Comparée à la combinaison Data Warehouse – reverse ETL, la Customer Data Platform se caractérise par :

  • Une plus grande ridigité. La CDP impose ses modèles de données et impose des limites dans la création de modèles sur-mesure.
  • Les CDP sont des solutions très coûteuses, inaccessibles pour la plupart des TPE, et même des PME.
  • Les CDP ne favorisent pas la communication entre l’IT et les équipes métiers. La CDP est conçue pour les équipes métiers, et en particulier pour le marketing. L’objectif des éditeurs est de rendre les équipes métiers autonomes vis-à-vis de l’IT. Or, selon nous, l’enjeu est de fluidifier la communication entre l’IT et le métier, pas de la détruire. Pour déployer des cas d’usage data complexes, l’IT a son rôle à jouer.

C’est pour cette raison que nous préférons l’approche consistant à associer le Data Warehouse à un outil reverse ETL. Elle offre plus de souplesse. En deux mots, un reverse ETL permet de transformer votre Data Warehouse en Customer Data Platform.

Reverse ETL vs iPaaS

Un iPasS est une solution d’intégration en mode SaaS : Integration Platform as a Service. Integromat est sans doute la solution iPaaS la plus emblématique du marché aujourd’hui. Les iPaaS proposent en général des interfaces visuelles, faciles d’utilisation, qui permettent de connecter les applications et sources de données entre elles. Le fonctionnement est proche de celui du reverse ETL : Vous sélectionnez une source, vous sélectionnez un outil de destination et vous éditez le mapping pour définir l’endroit où les données issues de la source vont s’intégrer dans l’outil de destination (l’endroit et le « comment »). L’exemple ci-dessous montre la conception d’un mapping entre les emails et Google Spreadsheet :

alternative reverse etl ipaas integromat
Integromat – Intégration Email – GSheets.

Pas besoin d’APIs, pas besoin de scripts, et même pas besoin de SQL. Les solutions iPaaS sont pour cette raison prisées des personnes au profil non-technique. Un iPaaS permet de créer des flux de données 1:1 directement entre les sources et la destination, sans passer par le Data Warehouse. Pour cette raison, l’iPaaS peut être utilisé par les entreprises ayant des besoins limités en matière d’intégration data.  Mais ce n’est pas l’option à privilégier par l’entreprise qui souhaite se doter d’une infrastructure IT organisée autour d’une base de données jouant le rôle de pivot.

Conclusion

Le reverse ETL est déjà utilisé par les entreprises les plus avancées en matière de data et a vocation à s’imposer dans les entreprises qui souhaitent mieux exploiter leurs données. C’est une solution qui permet de franchir un cap sérieux vers une meilleure valorisation des données stockées dans le Data Warehouse. Nous aurons l’occasion de revenir plus en détail sur les enjeux autour de cette brique data incontournable.

Définition et analyse de la Stack Data Moderne

Un Data Engineer qui aurait été cryogénisé en 2010 et que l’on réveillerait par malice aujourd’hui ne comprendrait plus grand-chose à la stack data moderne. Dites-vous bien qu’il n’a fallu que quelques années pour que tout change dans la manière de collecter, extraire, acheminer, stocker, préparer, transformer, redistribuer et activer les données. Nous avons clairement changé de monde et les opportunités de générer du business grâce aux données n’ont jamais été aussi grandes.

A quoi ressemble la stack data moderne ? On peut commencer avec un premier schéma très macro.

stack data moderne

Clairement, l’évolution la plus marquante est la place centralise prise peu à peu par le Data Warehouse Cloud, devenu système pivot de l’infrastructure IT. De là découlent toutes les autres transformations notables :

  • L’augmentation exponentielle de la puissance de calcul et l’effondrement des coûts de stockage.
  • Le remplacement des outils ETL classiques par les solutions EL(T) Cloud.
  • Le développement de solutions de BI Cloud « self service ».
  • L’émergence récente des Reverse ETL qui permettent de faire descendre les données du Data Warehouse Cloud dans les outils métiers, de mettre enfin la stack data au service de la stack marketing.

stack data moderne snowplow
Source : Snowplow Analytics

Entrons dans le cœur du sujet. Nous allons vous présenter les contours de la stack data moderne. Nous avons choisi deux angles :

  • L’angle historique : Qu’est-ce qui a amené à l’émergence de la stack data moderne ?
  • L’angle disons géographique/topographique. Nous allons passer en revue les différentes briques qui composent cette stack data moderne.

🌱 Les changements à l’origine de la stack data moderne

La stack data moderne définit l’ensemble des outils et bases de données utilisés pour gérer les données destinées à alimenter les applicatifs métiers. L’architecture de la stack data a connu de profondes transformations ces dernières années, marquées par :

  • La montée en régime des Data Warehouses Cloud (DWH) qui s’imposent progressivement comme la source maîtresse des données. Le DWH a clairement vocation à devenir le pivot de la stack data et nous aurons l’occasion d’en reparler longuement dans nos articles de blog. Vous qui croyez encore à la Customer Data Platform sur l’étagère, abandonnez toute espérance.
  • Le basculement de l’ETL (Extract-Transform-Load) vers l’EL(T) : Extract – Load – (Transform). « ETL » en tant que concept, process, autant qu’en terme d’outils (logiciels ETL). Dans une stack data moderne, les données sont chargées dans la base maîtresse avant d’être transformées, via des solutions EL(T) dans le cloud, plus légères que les traditionnels outils ETL.
  • L’utilisation croissante de solutions analytics self-service (comme Tableau) pour faire de la BI, produire les reportings et autres data visualizations.

La montée en régime des DataWarehouse Cloud (DWH)

Le Data Warehouse est une technologie vieille comme le monde, ou presque. En tous cas ce n’est pas un mot nouveau, loin de là. Et pourtant nous assistons à une transformation majeure dans le paysage du Data Warehousing depuis une petite dizaine d’années. Les solutions DWH traditionnelles cèdent progressivement la place à des solutions dans le cloud : les Data Warehouse Cloud. On peut dater précisément cette évolution : octobre 2012, date de mise sur le marché de la solution DWH Cloud d’Amazon : Redshift. Il y a clairement un avant et un après, même si Redshift perd aujourd’hui du terrain.

On peut dire que c’est Amazon, avec Redshift, qui a donné la principale impulsion ayant donné naissance à la stack data moderne. Toutes les autres solutions du marché qui ont suivi ont une dette envers le géant américain : Google BigQuery, Snowflake et quelques autres. Cette évolution a parti lié avec la différence entre les systèmes MPP (Massively parallel processing) ou OLAP comme Redshift et les systèmes OLTP classiques comme Postgres. Mais cette discussion mériterait à elle seule tout un article que nous produirons sans doute un jour. Pour faire court, disons que Redshift permet de traiter des requêtes SQL et de réaliser des jointures sur d’énormes volumes de données de 10 à 10 000 fois plus rapidement que les bases OLTP. Précisons quand même que Redshift n’est pas la première base MPP. Les premières sont apparues une décennie plus tôt, mais en revanche Redshift est bien :

  • La première solution de base de données MPP basée dans le Cloud.
  • La première solution de BDD MPP accessible financièrement à toutes les entreprises. Une TPE qui a des besoins limités peut utiliser Redshift pour quelques centaines d’euros par mois. Pour information ou pour rappel : avec les solutions classiques On-Premise, il faut compter pas loin de 100k€ de licence annuelle.

Depuis quelques années, on assiste à une montée en puissance de BigQuery et surtout de Snowflake. Ces deux solutions proposent désormais les meilleures offres du marché, tant au niveau du prix que de la puissance de calcul. Mention spéciale pour Snowflake qui propose un modèle de tarification très intéressant, puisque la facturation du stockage est indépendante de la facturation du computing.

Mais parce qu’il faut rendre à César ce qui lui appartient – César étant ici Redshift, rappelons ces quelques chiffres :

  • RedShift a été lancé en 2012. Il y a 10 ans.
  • BigQuery, la solution DWH Cloud de Google, n’a intégré le standard SQL qu’en 2016.
  • Snowflake n’est devenu mature qu’en 2017-2018.

Ce qui change avec les Data Warehouse Cloud

Résumons-nous. L’avènement de Redshift et des autres solutions Data Warehouse Cloud qui ont suivi ont permis de gagner sur plusieurs niveaux :

  • Rapidité. C’est ce que nous venons de voir. Un DWH Cloud permet de réduire significativement le temps de traitement des requêtes SQL. La lenteur des calculs était le principal frein à l’exploitation massive des données. Redshift a fait sauter de nombreuses barrières.
  • Connectivité. Le Cloud permet de connecter beaucoup plus facilement les sources de données au Data Warehouse. Plus généralement, un DWH Cloud gère beaucoup plus de formats & sources de données qu’un entrepôt de données traditionnel installé sur les serveurs de l’entreprise (On-Premise).
  • Accès utilisateurs. Dans un Data Warehouse classique, « lourd », installé sur les serveurs de l’entreprise, on limite volontairement le nombre d’utilisateurs pour limiter le nombre de requêtes et économiser les ressources serveurs. Cette option technologique classique a donc des répercussions au niveau de l’organisation :
    • DWH On-Premise : Géré par une équipe centrale. Accès restreints/indirects pour les utilisateurs finaux.
    • DWH Cloud : Accessibles et utilisables par tous les utilisateurs cibles. L’utilisation de serveurs virtuels permet de lancer des requêtes SQL simultanées sur une même BDD.
  • Flexibilité & Scalabilité. Les solutions Data Warehouse Cloud sont beaucoup moins onéreuses que les solutions On-Premise classiques (type Informatica ou Oracle). Elles sont aussi et surtout beaucoup plus flexibles, avec des modèles de tarification basés sur le volume de données stocké et/ou les ressources de computing consommées. En ce sens, l’avènement des Data Warehouses Cloud a permis de démocratiser l’accès à ce type de solutions. Alors que les DWH classiques étaient des solutions lourdes accessibles uniquement aux grandes entreprises, les DWH Cloud sont des solutions légères, flexibles accessibles à une TPE / startup.

Le passage des solutions ETL à EL(T)

Extract-Transform-Load : ETL. Extract-Load-(Transform) = EL(T). En déroulant ces acronymes, on comprend assez facilement la différence :

  • Lorsque l’on utilise un process ETL (et les outils ETL qui permettent d’opérer ce process), on transforme la donnée avant de la charger dans la base cible : le Data Warehouse.
  • Lorsque l’on utilise un process EL(T), on commence par charger toutes les données structurées ou semi-structurées dans la base maîtresse (DWH) avant d’envisager les transformations.

Quelles sont les enjeux sous-jacents d’une telle inversion ? C’est tout simple. Les transformations consistent à adapter le format des données à la base cible, mais aussi à nettoyer, dédupliquer et à réaliser un certain nombre de traitements sur les données issues des sources pour les adapter au design du Data Warehouse…et ne pas trop l’encombrer. L’enjeu est bien là. Transformer avant de Charger permet d’évacuer une partie des données et donc de ne pas trop surcharger la base maîtresse. C’est d’ailleurs pour cette raison que toutes les solutions classiques de Data Warehouse fonctionnaient avec des solutions ETL lourdes. Il fallait absolument faire du tri en amont du chargement dans le DWH dont les capacités de stockage étaient limitées.

Avec les Data Warehouse Cloud, le coût de stockage est devenu une commodité et la puissance de calcul a énormément augmenté. Résultat : Plus besoin de transformer avant de charger. La combinaison DWH On-Premise – ETL On-Premise cède le pas progressivement devant la combinaison moderne DWH Cloud – EL(T) Cloud. Le fait de charger les données dans le Data Warehouse avant toute transformations permet d’éviter de se poser les questions stratégiques et business au moment du process d’extraction et d’intégration des données dans le DWH. Le coût de gestion du pipeline est considérablement réduit, on peut se permettre de tout charger dans le DWH « sans se prendre la tête » – et ainsi on ne se prive pas des cas d’usage futurs de la donnée.

La tendance au self service Analytics

Nous avons parlé du Data Warehouse Cloud qui devient le pivot de la stack data moderne. En amont, nous avons les outils EL(T) qui font la connexion entre les multiples systèmes de données et l’entrepôt de données. Les données du Data Warehouse Cloud sont ensuite utilisées pour faire de la BI, de l’analyse de données, du dashboarding, du reporting.

L’avènement des DWH Cloud a contribué à « cloudifier » non seulement les solutions d’intégration (les ETL/ELT), mais aussi les solutions de BI. Nous avons aujourd’hui sur le marché des dizaines d’éditeurs de solutions de BI dans le cloud, abordables et conçues pour les utilisateurs métiers. Ce sont des solutions simples à utiliser et proposant des connecteurs natifs avec les principaux Data Warehouses Cloud du marché. Power BILooker ou Tableau sont solutions de BI Cloud de référence :

powerbi vs qlikview vs looker
Source : Medium

Une solution comme Tableau permet de connecter toutes les sources de données en quelques clics et de créer à partir d’elles des rapports sur-mesure, sur la base de modèles de données simplifiés. Une solution de BI permet un pilotage de la performance global basé sur des modèles d’attribution omnicanaux, contrairement aux modules de reporting proposés par les applicatifs métiers ou les solutions de web analytics (Google Analytics…). Un outil comme Looker, branché au Data Warehouse, désilote l’analyse de données. La BI est l’un des principaux cas d’usage d’un Data Warehouse. Avec l’avènement des DWH Cloud, il était naturel que se développe de solutions de BI SaaS. Et cela s’est fait.

Data Warehouse Cloud, EL(T), solutions analytics « self-service » : ces trois familles d’outils sont étroitement liées et constituent les pièces maîtresses d’une stack data moderne.

🔎 Zoom sur les briques de la stack data moderne

Nous allons maintenant passer en revue de manière plus détaillée les principales briques composant la stack data moderne, en partant du schéma présenté en introduction.

Schéma type d’une stack data moderne

Nous apprécions ce schéma de la stack data moderne proposé par a16z.

stack data moderne cartographie
Source : a16z.

De gauche à droite, nous trouvons :

  • Les sources de données, c’est-à-dire l’ensemble des systèmes, bases et outils fournisseurs de données. Ces sources peuvent être internes ou externes (solutions d’enrichissement…). Le phénomène auquel nous assistons depuis des années, lié au développement du digital, c’est l’explosion non seulement des volumétries de données, mais aussi des sources de données – et donc des formats, des structures de données. Cette effervescence constitue à la fois un énorme potentiel et un sacré défi.
  • Les solutions d’ingestion et/ou de transformation des données. Nous retrouvons ici toutes les technologies concourant à réaliser le process Extract – Load et éventuellement Transform : EL(T). C’est-à-dire les solutions permettant l’acheminant (avec ou sans transformations) des données issues des sources dans la ou les bases maîtresses.
  • La base ou les bases maîtresse(s) de stockage des données. On trouve ici deux familles de solutions : les Data Warehouse Cloud et les Data Lake. Le DWH stocke des données structurées ou semi-structurées tandis que le Data Lake peut stocker vraiment n’importe quels types de données. En clair, le Data Lake est une baignoire dans laquelle on verse en vrac toutes les données sans aucunes transformations, sans aucuns traitements, dans leur état brut. Le Data Lake est utilisé pour des cas d’usages data très avancés de type Machine Learning. C’est l’outil des Data Scientists. Le Data Warehouse reste un « entrepôt » organisant les données de manière structurée, même si ses capacités à intégrer les données semi-structurées augmentent clairement. C’est le développement de ces capacités d’ailleurs qui rend le DWH de plus en plus pivot – contrairement au Data Lake « pur » qui joue de plus en plus un rôle secondaire. Nous y reviendrons.
  • Les outils de préparation et de traitement de la donnée. Nous avons vu que le Data Warehouse Cloud tendait à devenir l’outil de référence pour transformer les données, via SQL. Il existe quantités de solutions pouvant accompagner le DWH dans ce process de transformation des données en vue des usages BI ou business. Les outils de préparation et de transformation dessinent la famille de solutions data la plus large et hétéroclite.
  • Les outils de BI et les outils d’activation, qui sont les outils de destination des données du Data Warehouse Cloud. Le DWH est à la base utilisé pour la BI. Il l’est de plus en plus pour alimenter en quasi temps réel les applicatifs métiers. C’est ici qu’intervient les Reverse ETL comme Octolis. Nous vous présenterons dans quelques instants le rôle des Reverse ETL dans la stack data moderne.

Passons maintenant en revue chacune de ces briques de la stack data moderne.

Le Data Warehouse Cloud

Le DWH Cloud constitue la fondation de la stack data moderne, la solution pivot autour de laquelle gravite tous les autres outils. Il stocke les données structurées et semi-structurées de l’entreprise. Il n’est pas simplement une base de données, il est aussi un laboratoire de la donnée, une véritable machine. Il est un lieu de préparation et de transformation des données via un outil principal : le SQL, même si on utilise de plus en plus Python (mais c’est un autre sujet).

bigquery snowflake redshift
Légende : Medium. Mai 2020. Redshift plafonne, BigQuery monte, Snowflake explose.

Le Data Warehouse Cloud est parfois construit en aval d’un Data Lake qui sert, comme nous l’avons vu, de fourre-tout, de baignoire de données stockées dans leur état brut. On peut très bien utiliser à la fois un Data Lake et un Data Warehouse Cloud. On n’a pas nécessairement besoin de faire le choix entre les deux technologies. A vrai dire, elles remplissent des rôles différents et peuvent se montrer complémentaires…même s’il y a fort à parier que le sens de l’histoire soit à la fusion des deux technologies. Signalons d’ailleurs que certains acteurs, comme Snowflake, proposent des solutions de Data Warehouse Cloud et de Data Lake intégrées. Ce serait d’ailleurs l’objet possible d’un article : Data Lake et Data Warehouse Cloud ont-ils vocation à fusionner ? Ce n’est pas l’objet de cet article, mais sachez que c’est un débat qui remue la tête de beaucoup d’experts !

Quoi qu’il en soit, c’est autour du Data Warehouse Cloud, connecté ou fusionné avec le Data Lake, que s’organise toute la stack data moderne.

Les solutions EL(T)

Comme nous l’avons vu dans la première section de l’article, les solutions EL(T) prennent l’ascendant sur les outils ETL classiques. Cette évolution traduit une transformation au niveau du process d’intégration des données, une évolution majeure dans la manière de construire le pipeline de données.

etl vs elt
Source : AWS. ETL Vs ELT.

Une question que vous vous êtes peut-être posées : Pourquoi mettre « T » entre parenthèses ? Pour la simple et bonne raison que l’outil utilisé pour la construction du pipeline de données entre les systèmes sources et le Data Warehouse Cloud n’a plus besoin de transformer la donnée. Les solutions EL(T) Cloud (Fivetran, Stitch Data…) servent avant tout à organiser la tuyauterie. C’est leur rôle principal. Ce sont désormais les solutions de Data Warehouse Cloud et des outils tiers qui prennent en charge les phases de transformation.

Une solution DWH Cloud permet de transformer des tables de données avec quelques lignes de SQL. C’est d’ailleurs une évolution dont nous aurons à reparler : La plupart des opérations de Data Preparation et de Data Transformation peuvent aujourd’hui être réalisées dans le Data Warehouse Cloud lui-même en utilisant SQL. Les transformations sur les données sont donc de moins en moins traitées par les Data Engineers (en Java, Python et autre Scala) et de plus en plus prises en charge par les Data Analysts et équipes business utilisant le SQL. Ceci amène d’ailleurs un vrai : Quel rôle pour le Data Engineer demain ? Son rôle dans l’organisation et la maintenance de la stack data moderne n’est pas assuré. L’objectif de la stack data moderne est de redonner du pouvoir (sinon « le » pouvoir) aux utilisateurs finaux des données. Une stack data qui se modernise est une stack data de plus en plus au service des équipes métier et de la stack marketing qu’ils manient. La stack data moderne casse les barrières entre data et marketing, elle est la condition sine qua non d’un Data-Marketing efficient, la condition pour devenir « data-driven » véritablement.

Les solutions de préparation / transformation

Dans une stack data moderne, la préparation et la transformation des données s’effectuent :

  • Soit dans le Data Warehouse Cloud lui-même, comme nous l’avons vu.
  • Soit en aval du Data Warehouse Cloud, via des outils ETL.
  • Soit, cas le plus fréquent, par le DWH renforcé par des outils tiers.

La préparation ou transformation des données est l’art de rendre la donnée exploitable. Cette phase consiste à répondre à une question simple : Comment transformer des données brutes en set de données exploitables par le business ?

stack data moderne solution dataprep dataform
Un exemple de solution de préparation des données brutes : Dataform.

La transformation des données est un process multiforme qui implique des natures de traitements assez différentes : nettoyage des données, déduplications, paramétrage de règles sur-mesure de mise à jour des données, enrichissements des données, création d’agrégats, de segments dynamiques…Les outils de préparation et de transformation sont également utilisés pour maintenir la qualité des données (Data Quality). Parce que la « transformation » des données fait référence à des opérations de nature différente, on ne s’étonnera pas que la stack data moderne accueille plusieurs outils appartenant à cette grande famille multiforme.

Les solutions de data management (Gouvernance des données)

Le fait que le Data Warehouse Cloud soit accessibles et utilisables par un grand nombre d’utilisateurs est bien entendu une chose positive. Le problème potentiel, c’est le chaos que ces accès élargis peuvent occasionner en matière de Data Management.  Pour ne pas tomber dans ce piège, l’entreprise doit absolument :

  • Intégrer un ou plusieurs outils de Data Management dans la stack data.
  • Documenter et mettre en place des règles de gouvernance des données.

Les enjeux autour de la Gouvernance des Données sont plus actuels que jamais. La première raison, c’est celle que nous venons de rappeler : l’ouverture en accès et en édition des solutions de la stack data. La deuxième raison, c’est l’explosion des volumétries de données qui impose la mise en place de règles stricts de gouvernance. La troisième raison est le renforcement des règles régissant l’utilisation des données à caractère personnel. Le fameux RGPD notamment…

La gouvernance des données est un sujet sensible et généralement traité de manière insatisfaisante par les organisations. Ce n’est pas le sujet le plus sexy, mais il faut clairement l’intégrer dans la feuille de route.

Les solutions reverse ETL

Terminons par une toute nouvelle famille de solutions data, beaucoup plus sexy pour le coup et promise à un bel avenir : les Reverse ETL. Nous publierons prochainement un article très complet sur le Reverse ETL, son rôle, sa place dans la stack data moderne. Résumons ici en quelques mots les enjeux et les fonctionnalités proposées par ces solutions d’un nouveau genre.

L’enjeu, il est en vérité très simple : Les données issues des sources de données diverses et variées de l’entreprise remontent de mieux en mieux dans le Data Warehouse Cloud, mais ces données ont encore beaucoup de mal à redescendre dans les outils d’activation : le CRM, le Marketing Automation, la solution de ticketing, l’ecommerce, etc.

Le Reverse ETL est la solution qui organise et facilite la redescente des données du DWH dans les outils utilisés par les équipes opérationnelles. Avec un Reverse ETL, les données du Data Warehouse Cloud ne sont plus seulement utilisées pour alimenter la solution de BI, elles sont mises au service des équipes métier, dans les outils qu’ils utilisent au quotidien.

C’est pour cela que l’on parle de « Reverse ETL ». Là où l’ETL (ou ELT) fait monter les données dans le DWH, le Reverse ETL fait l’inverse. Il fait redescendre les données depuis le DWH dans les outils. Le Reverse ETL est la solution qui permet de mettre en connexion la stack data et la stack marketing au sens large. Il est à l’interface des deux. Un exemple ? Avec un Reverse ETL, vous pouvez faire descendre les données d’activité web (stockées dans le DWH) dans le logiciel CRM pour aider les commerciaux à améliorer leur relation prospects/clients. Mais c’est un cas d’usage parmi tant d’autres…Les cas d’usage sont multiples et ont vocation à devenir de plus en plus nombreux dans les prochains mois et prochaines années. Census, HighTouch et bien entendu Octolis sont trois exemples de Reverse ETL.

🏁 Conclusion

Les infrastructures, les technologies, les pratiques et jusqu’aux métiers du Data marketing au sens le plus large ont évolué à une vitesse incroyable. Nous avons vu la place centrale que cette stack data moderne accorde au Data Warehouse Cloud. Tout pivote autour de ce point de gravité.

Certaines évolutions récentes, et nous pensons notamment à la mode des Customer Data Platforms sur l’étagère, faussent un peu la compréhension de ce qui se passe réellement. Il ne faut pas s’y tromper, c’est clairement du côté des Data Warehouses (qui n’ont plus rien à voir avec leurs ancêtres On-Premise) que pointe la flèche de l’avenir.

Vers le côté des DWH Cloud…et vers tout l’écosystème d’outils gravitant autour : EL(T), solutions de BI Cloud…et bien sûr Reverse ETL.