Comment mesurer le ROI de mon dispositif data ?

Il n’est pas facile de mesurer le ROI d’un dispositif data ou l’impact d’une fonction data. Pour un dirigeant soucieux de bien doser ses investissements, c’est un challenge.

Il y a au moins 2 raisons qui expliquent cette difficulté :

  • La fonction data est relativement nouvelle. Il n’y a pas encore de framework faisant autorité permettant de mesurer son impact. D’ailleurs, le rôle et la place dans l’organisation de la fonction data ne sont pas toujours bien clairs. Certaines équipes data reportent au CTO, d’autres aux CFO, d’autres au CMO…
  • La fonction data a un impact indirect sur les KPIs business de l’entreprise. Il s’agit d’une fonction support qui n’est pas directement génératrice de revenus comme peuvent l’être les fonctions Marketing ou Sales.

Télécharger notre template ROI Data Stack gratuitement

Notre conviction est que le ROI d’une fonction data varie suivant la taille de l’équipe data. C’est une idée que nous avions déjà présentée dans notre guide pour structurer la fonction Data / Analytics en startups. Pour résumer :

  • Votre équipe data a entre 0 à 5 personnes ? Son rôle principal est la fiabilisation des données, c’est-à-dire la gestion de la qualité des données. C’est sur cela que vous allez pouvoir la juger et mesurer son ROI.
  • Votre équipe data a entre 5 à 10 personnes ? Son rôle principal est l’opérationnalisation des données, c’est-à-dire la mise à disposition des données directement dans les outils des équipes métier.
  • Votre équipe data a plus de 10 personnes ? Son rôle est l’amélioration de la productivité des équipes.
roi team data enjeux
Source : Castordoc.

De ces rôles ou objectifs découlent des indicateurs que nous allons vous détailler. Nous avons aussi conçu pour vous une ressource GSheets 100% home-made qui devrait vous être utile. Pour produire ce guide, nous avons choisi de nous inspirer du beau travail réalisé par nos amis anglophones de chez Castordoc.

ROI d’une petite équipe data : Fournir des données fiables

Une petite équipe data (entre 0 et 5 personnes) doit se concentrer sur un objectif principal : fournir des données propres et fiables aux équipes business et aux décisionnaires. C’est donc la qualité des données qui va servir d’étalon pour mesurer le ROI de l’équipe et de l’infrastructure data.

Il existe 5 critères pour évaluer la qualité d’une donnée : l’exactitude, l’exhaustivité, la cohérence, la fiabilité et l’utilisabilité. Chacun de ces critères peut se décliner en KPIs et être utilisé pour évaluer le ROI de l’équipe data.

L’exactitude

L’exactitude des données définit le niveau de correspondance entre vos données et la réalité. C’est le critère de base. Si le nombre de commandes enregistré dans le data warehouse est différent de celui rapporté par les commerciaux, il y a un problème, vos données sont inexactes Le KPI consiste à évaluer la proportion de données exactes parmi l’ensemble de vos données.

roi stack data exactitude

Une autre approche consiste à calculer le taux d’exactitude pour chaque data set et à le rendre accessible aux utilisateurs sous la forme d’un pourcentage affiché dans leurs outils. On peut ensuite définir une règle de gouvernance : « si moins de X% d’exactitude, ne pas utiliser ce champ ».

La complétude

Le taux de complétude désigne le pourcentage de champs complétés pour un attribut donné. Par exemple, si vous avez l’adresse postale de 80% de vos contacts, 80% est le taux de complétude de l’attribut « adresse ». On peut aussi calculer le champ de complétude d’une base de données, en prenant en compte l’ensemble des colonnes. Le taux de complétude se mesure de la manière suivante :

roi stack data completude
Là encore, le taux de complétude peut être affiché dans les outils des utilisateurs métier et des règles peuvent être définies pour déterminer à partir de quel taux de complétude un champ peut être utilisé (pour créer un segment par exemple).

La cohérence

La cohérence désigne l’absence de conflit entre vos données. Si vous avez 2 outils qui stockent les adresses postales et que ces 2 outils affichent des valeurs différentes, il y a un conflit et donc un problème de cohérence. Soit dit en passant, l’unification des données dans une base centrale résout ce problème. Mais on peut aussi parler de conflit dans un même outil si, par exemple, votre revenu mensuel n’est pas cohérent avec votre chiffre d’affaires et vos coûts. Il y a donc 2 types de conflits. La cohérence est plus complexe à calculer que les autres métriques. Elle se calcule à deux niveaux : entre deux colonnes, entre deux tables.

roi stack data coherence

La fiabilité

Une donnée est fiable si elle fait l’objet de confiance de la part des personnes qui l’utilisent. Pour qu’une donnée soit fiable, elle doit disposer d’un niveau de garantie suffisant quant à sa qualité. Si l’équipe marketing décide de ne pas utiliser telles données parce qu’elle estime qu’elles ne reflètent pas la réalité, il y a un problème de fiabilité. La fiabilité est un critère subjectif dépendant des critères objectifs présentés plus haut : exactitude, complétude et cohérence. Il y a plusieurs manières de mesurer la fiabilité des données.

roi stack data fiabilite

L’utilisabilité

La question est simple : est-ce vos données sont utilisées par le métier ? Pour être utilisées, elles doivent être utilisables. Pour être utilisables, les données doivent être facilement accessibles et facilement interprétables.

Un ensemble de données répondant aux 4 critères vus précédemment peut très bien être inutilisable si les données sont difficiles à trouver et à comprendre…L’utilisabilité est le critère ultime de qualité des données. On peut améliorer l’utilisabilité des données en ajoutant des métadonnées, en documentant les données. D’où la métrique que nous vous proposons.

roi stack data utilisabilite

Deux autres métriques sont possibles : le nombre de requêtes d’utilisateurs demandant à ce que la donnée soit présentée autrement, le nombre d’utilisateurs cibles utilisant effectivement les systèmes qui leur sont destinés.

ROI d’une équipe data de taille intermédiaire : Faciliter l’exploitation opérationnelle des données

Une équipe data de taille intermédiaire (entre 5 et 10 personnes) n’a plus pour seul objectif de fiabiliser les données pour aider l’entreprise à prendre des décisions data-driven. Elle doit aussi rendre ces données exploitables au quotidien par les équipes métiers, par les opérationnels. L’exploitation opérationnelle de la donnée est son enjeu.

Impact sur les performances opérationnelles

Créer des reportings avec des données fiables, c’est bien, mais les données n’ont pas seulement vocation à alimenter des tableaux de bord. Le niveau supérieur consiste à pousser les données directement dans les outils utilisés par le métier pour que les équipes puissent utiliser les données au jour le jour, dans leurs process quotidiens. Les données sont « opérationnalisées ».

C’est, par exemple, mettre en place un flux permettant que le NPS remonte automatiquement dans la fiche client du CRM, avec mise à jour en temps réel quand il s’agit de données chaudes. Et plus largement, cela consiste à faire en sorte que les segments, les scores et autres agrégats calculés dans l’outil de data management soient automatiquement synchronisés dans les applicatifs métier, au bon endroit.

C’est ce que l’on appelle « l’operational analytics », qui est facilitée par l’adoption d’outils gérant les flux de données de la base centrale vers les différents applicatifs (ce qu’on appelle les Reverse ETL).

Nous avons produit un article invité sur le site du Journal du Net au sujet de cette approche « operational analytics » . Si vous voulez aller plus loin, nous vous en recommandons chaudement la lecture.

A un niveau plus avancé donc, mesurer le ROI d’une équipe data ou d’une stack data va consister à mesurer l’augmentation des performances des équipes métiers grâce aux données mises à disposition dans leurs outils. Grâce aux données rendues opérationnelles :

  • Les marketers utilisent des segments plus fins qui leur permettent de concevoir des campagnes mieux ciblées
  • Les commerciaux priorisent mieux les leads dans leur pipeline
  • Le support priorisent mieux les tickets

Nous avons conçu un framework qui va vous aider à mesurer le ROI de l’operational analytics sur la partie qui nous intéresse : le marketing. Le fonctionnement de ce framework est simple :

  • Vous renseignez le coût de votre dispositif data : le coût homme et le coût logiciels.

roi stack data template octolis couts

  • Vous estimez ensuite ce que vous pourriez gagner grâce à votre stack data. Pour cela, vous devez définir vos différents cas d’usage et, pour chaque cas d’usage, faire une estimation de son impact sur la réduction des coûts d’acquisition et/ou sur la performance (conversion, panier moyen, fréquence d’achat).

roi equipe data cas usage operationnels

  • Les pourcentages sont calculés en valeurs monétaires sur la base des métriques que vous avez renseignées dans le template.

roi equipe data cas usage operationnels 2

Une fois tout cela fait, vous n’avez plus qu’à utiliser la formule [(gains – coûts) / coûts] pour calculer le ROI de votre dispositif data.

Impact sur l’Analytics

Une bonne infrastucture data, une bonne stack data permet aussi de booster le ROI de l’équipe data. Il y a plusieurs métriques ou dimensions à prendre en compte pour mesurer cet impact :

  • L’équipe data est moins sollicitée pour fournir des analyses ad hoc. L’operational analytics permet aux équipes métier de gagner en autonomie dans la production d’analyses adhoc du fait de la mise à disposition des données directement dans les applicatifs et de l’utilisation d’outils self-service business user-friendly.  Pour mesurer cet impact, vous pouvez utiliser la métrique suivante :

roi stack data impact analytics

  • L’équipe data a plus facilement et rapidement accès aux données. Un manque de documentation, l’absence de data cataloging ou une mauvaise gouvernance des données peuvent compliquer l’accès aux données. Il faut parfois plusieurs jours pour qu’un data scientist accède aux données dont il a besoin pour construire ses modèles. Avec une bon dispositif data, les professionnels de la donnée perdent moins de temps à accéder aux données et consacrent plus de temps à les analyser, les exploiter.

roi stack data impact analytics accessibilite

  • L’équipe data répond plus rapidement aux demandes du métier. La mise en place d’une stack data moderne ou, en tout cas, d’une infrastructure data cohérente permet de traiter plus rapidement les demandes des équipes métier. Comment calculer cet impact ? Par exemple en mesurant la satisfaction des équipes métier vis-à-vis de l’équipe data ou en calculant un temps moyen de réponses (plus difficile à mesurer…).

ROI d’une équipe data importante : Améliorer la productivité

Une équipe data bien structurée, comportant au moins 10 personnes, peut se proposer des objectifs encore plus ambitieux : améliorer la productivité de l’organisation. Comment ? De 3 manières : en optimisant la stack data, en réduisant le temps passé par les équipes métier sur les sujets data, en améliorant la productivité des équipes analytics et métier.

Optimisation de la stack data

Dans une stack data moderne, l’architecture Data et IT est simplifiée. Finies les infrastructures lourdes basées sur des solutions anciennes On-Premise, finie la multiplication inutile des outils, fini le temps perdu à maintenir des pipelines de données complexes ou des bases de données qui tombent régulièrement en panne.

L’un des ROI d’une équipe data mature réside dans sa capacité à mettre en place une stack data moderne adaptée aux objectifs/besoins de l’entreprise et à optimiser le coût général de l’infrastructure data, du management de la data.

Comme nous l’expliquions dans notre article De la stack data moderne à l’expérience data moderne, « la stack data moderne rend simple, rapide, souple et abordable ce qui était autrefois compliqué, long, rigide et coûteux ». L’automatisation des process, des flux, l’effondrement des coûts de stockage, tout cela fait gagner du temps et de l’argent.

Comprendre la stack data moderne

Un Data Engineer qui aurait été cryogénisé en 2010 et que l’on réveillerait aujourd’hui ne comprendrait pas grand-chose à la stack data moderne. Il n’a fallu que quelques années pour que tout change dans la manière de collecter, extraire, acheminer, stocker, préparer, transformer, redistribuer et activer les données. On vous explique tout dans notre guide introductif à la Stack Data Moderne.

Réduction du temps passé par les équipes métier sur les sujets data

L’objectif d’une équipe data mature est, par les moyens qu’elle met à disposition, par l’infrastructure qu’elle construit, de limiter le temps passé par les équipes métier à travailler sur des sujets data, que ce soit construire des reportings, effectuer des analyses adhoc ou synchroniser les données entre les outils, etc.

Notre framework vous permet de calculer le coût total lié au temps passé par les équipes métier sur les sujets data. Vous pouvez vous en servir pour estimer ce que cela vous coûte aujourd’hui et ce que cela vous coûterait si vous optimisiez l’organisation des équipes et votre dispositif data.

roi team data productivite equipe

Productivité des équipes data

Une organisation et une infrastructure data solides permettent d’augmenter la productivité de l’équipe data. Une équipe data mature comprend deux types de profils bien distincts :

  • Les ingénieurs data, chargés de gérer l’infrastructure, les pipelines, la disponibilité des données.
  • Les analystes, au sens large, ce qui inclut les data analysts et les data scientists.

Dans une équipe data structurée, chacun de ces deux types profils génère un ROI différent pour l’entreprise :

  • Le ROI principal délivré par les « ingénieurs data » = la disponibilité des données pour les analystes. Les ingénieurs data ont rarement un impact direct sur les KPIs business d’une entreprise. En revanche, on peut mesurer leur impact sur la productivité des équipes analytics. La disponibilité (et la fraîcheur) des données est un bon indicateur pour évoluer l’efficience d’une stack data. Quels KPIs utiliser ? Par exemple, le nombre de fois qu’un dataset est délivré dans les temps aux équipes analytics, ou bien la fréquence de rafraîchissement des datasets (jour, heure, temps réel). Une autre solution consiste à mesurer le downtine, c’est-à-dire le temps perdu à résoudre les incidents. Voici comment le mesurer :
roi stack data downtime
Si vous avez 10 incidents data par mois et que chacun prend en moyenne 4 heures pour être détecté et 3 heures pour être résolus, votre downtime mensuel est de 70 heures.
  • Le ROI principal délivré par les « analystes data » = la réduction du volume de sollicitations provenant des équipes métier. On pourrait dire, en caricaturant un peu, que les ingénieurs data travaillent à améliorer la productivité des analystes data et que les analystes data travaillent à améliorer la productivité des équipes métier. Si les équipes métier (marketing, sales, service client, finance…) passent leur temps à interroger les analystes pour obtenir des réponses à leurs questions, c’est que les données ne sont pas suffisamment opérationalisées. Cela impacte leur productivité mais aussi celles des analystes data, qui ont moins de temps à consacrer à leur cœur de métier : la production d’analyses (data analysts) et la production de modèles (data scientists). Le ROI des analystes de la data peut se mesurer au volume de sollicitations en provenance des équipes métier.

roi stack data equipe data analytics

En résumé :

  • Le ROI des ingénieurs data se mesure à l’impact qu’ils ont sur la productivité des analystes data.
  • Le ROI des analystes data se mesure à l’impact qu’ils ont sur la productivité des équipes métier.

Plus que jamais, à ce stade de maturité de l’équipe data, ce n’est pas les outputs (la qualité des données, par exemple) qui permettent d’évaluer le ROI de l’infrastructure data, mais les impacts (sur le business).

Conclusion

Résumons-nous. Notre conviction est que c’est la taille, le degré de maturité de l’organisation et le niveau de structuration de l’équipe data qui déterminent les objectifs et les indicateurs de mesure de ROI de la fonction data. Le rôle et le niveau d’ambition d’une équipe data ne peuvent pas être le même suivant qu’elle comporte 2 ou 30 personnes…

  • Si votre entreprise a une fonction data récente avec des ressources limitées (0 – 5 personnes), c’est sa capacité à fournir des données fiables au métier qui servira de boussole pour évaluer le ROI.
  • Si votre entreprise dispose d’une fonction data plus étoffée et plus mature (5 – 10 personnes), c’est la capacité à « opérationnaliser » les données qui servira d’indicateur.
  • Si votre entreprise a une fonction data structurée, comportant au moins 10 personnes avec des rôles bien définis, répartis entre les ingénieurs data et les analystes data, le ROI se mesurera à partir de l’impact sur la productivité de l’entreprise.

Une fois que l’on a compris l’objectif principal de la fonction data de son entreprise, les métriques sont relativement faciles à déduire. Nous vous en avons donné quelques-unes, vous pourrez sans doute en imaginer d’autres. Nous espérons aussi que la ressource que nous avons produite vous sera utile. Nous comptons sur vous pour en faire un bon usage 🙂

Téléchargement de notre template ROI Data Stack.

Pour accéder à la ressource, il vous suffit de vous inscrire en quelques clics.
Au clic sur le bouton ci-dessous, vous arriverez sur un formulaire d'inscription rapide. Une fois inscrit, il y a un onglet "Ressources" qui apparaîtra dans le menu du haut qui vous permettra d'accéder à l'ensemble des ressources en téléchargement gratuit. Avec un peu de chance, vous aurez une bonne surprise, il y aura d'autres ressources qui vous seront utiles 😊

👉 Je m'inscris pour télécharger la ressource

Notre sélection des meilleurs exemples de programmes de fidélisation

Dans la course vers une relation client toujours plus personnalisée et omnicanale, les programmes de fidélisation qui visent à récompenser les clients réguliers et à instaurer avec eux une relation durable jouent un rôle de plus en plus important.

Ces programmes répondent à un constat simple, 15 à 20% de clients qui représentent 50 à 80% de votre chiffre d’affaires : il est donc nécessaire de valoriser le plus possible vos meilleurs clients.

L’objectif de ces programmes est triple :

  • Augmenter la rétention
  • Faire croître leur panier moyen et leur Lifetime Value (LTV)
  • Diminuer le coût d’acquisition client.

Les programmes de fidélités modernes, auxquels les clients sont plus sensibles, dépassent le simple avantage économique. Plus encore, l’éternelle « carte de fidélité » n’est plus un élément indispensable d’un programme. Il vaut mieux désormais se recentrer sur la relation avec le client pour proposer une expérience unique qui vous permettra de vous distinguer de la concurrence.

Nous avons donc sélectionné les exemples les plus réussis dont vous pouvez vous inspirer pour vos programmes de fidélités.

#1 Appartenance à un club avec le Nike+ Run Club

Nike programme de fidélité

Le Nike+ Run club permet à tous les utilisateurs de l’application Nike, débutant ou confirmé, d’appartenir à un « club » et d’être accompagné dans la pratique de leur sport. Le mot d’ordre dans la description de l’application par Nike : « nous sommes là pour vous », est représentatif de cette volonté.

Les utilisateurs font ainsi partie d’une très large communauté organisée autour de la marque de sport. On peut y enregistrer ses chaussures, suivre le détail de ses performances et partager chacune de ses courses.

L’une des forces de cette application est sa gratuité : même un utilisateur qui n’est pas encore client chez Nike peut s’inscrire et faire partie de cette communauté. Une fois membre, l’utilisateur est plus susceptible de devenir client ou de le rester.

L’autre atout de cette application est le coaching personnalisé – là encore accessible gratuitement. Chaque utilisateur est donc accompagné dans la pratique de son sport par un « coach » virtuel de Nike, une voix qui guide l’utilisateur lors de ses courses. Nike prend ainsi une place importante dans la pratique du sport par l’utilisateur, qui associe alors la marque à sa progression.

#2 Les programmes à points, le club Oh My Cream

OhMyCream programme de fidélité

Le programme à point est un système simple grâce auquel le client va gagner un certain nombre de points par euro dépensé, en échange desquels il peut bénéficier d’avantages exclusifs et de réductions.

Ce système permet d’inciter directement le client à accroître la taille de son panier, ce dernier étant récompensé en fonction de la valeur de ses achats. De plus, le fonctionnement simple et clair de ce type de programme facilite l’adhésion des utilisateurs qui ont facilement accès à la grille de récompenses.

Un exemple de programme à points est le club Oh My Cream, de la marque de soin skincare. Ce club repose sur 3 niveaux – Argent, Or et Platine – qui offrent des réductions, mais donnent également accès à des ventes privées et même à des initiations exclusives et des journées privilèges.

Ainsi, pour chaque euro dépensé, le client gagne un point. Parvenu à 220 points, le client entre dans le programme au niveau Argent et reçoit un bon de réduction de 10% utilisable sur la commande de son choix. Ce système continue jusqu’à ce que le client atteigne les 1300 points – le niveau Platine – lorsque sa fidélité est récompensée par des invitations exclusives à des évènements privés, et où chacune de ses commandes est agrémentée d’une surprise.

Le club Oh My Cream est donc un exemple intéressant de programme à points. Facilement compréhensible et transparent, les clients y adhérent rapidement. Plus encore, ce système ne repose pas seulement sur une offre économique, mais propose aussi des expériences uniques aux clients les plus fidèles.

#3 Le parrainage avec Mon Petit Placement

Mon petit placement programme de fidélité

Les programmes de parrainage récompensent une autre facette de la fidélité du client : les recommandations. Leur objectif premier est d’accroître la base de clients en se reposant sur les utilisateurs existants. Cela présente plusieurs avantages :

  • Réduction du coût d’acquisition client :

En laissant les utilisateurs promouvoir eux-mêmes la plateforme, l’entreprise réalise des économies significatives. Pour que cela soit effectivement rentable, il est nécessaire de calculer l’avantage qu’en retirent les parrains pour que l’offre soit incitative et en même temps intéressante économiquement pour l’entreprise.

  • Sélection des clients potentiels :

Les utilisateurs qui recommandent la plateforme le font à des individus très susceptibles d’être intéressé par le service. C’est donc un moyen indirect mais précis de sélectionner les clients potentiels.

  • Récompense pour l’attachement à l’entreprise :

Ce système de récompense dépasse les simples récompenses liées aux achats et encourage les clients à recommander le service, créant de fait un plus grand attachement à la marque.

Le programme de fidélité de Mon Petit Placement est un exemple de système de parrainage efficace. Chaque parrain bénéficie de 15% de réduction à vie par filleul sur ses frais de gestion, et chaque filleul reçoit à son tour cette réduction de 15% lors de la création de son compte. Plus encore ces réductions sont cumulables ! C’est donc un système simple dont les utilisateurs bénéficient directement et qui récompense de façon importante les individus qui recommandent Mon Petit Placement.

#4 Mettre en avant les valeurs partagées : Body Shop

Bodyshop programme fidélité

Tous les programmes de fidélités ne sont pas construits seulement autour d’avantages économiques. The body shop par exemple a centré son offre de fidélité autour de ses valeurs d’entreprise, notamment la lutte contre les violences sexuelles.

Le programme de fidélité The Body Shop offre la possibilité de convertir ses points de récompenses en dons. Ainsi, les récompenses ne bénéficient pas directement au client mais sont transmises à une association de son choix.

En opérant ainsi, l’entreprise se rapproche de ses clients à travers une lutte commune pour des valeurs partagées. Ce système reposant sur la charité permet donc de créer une relation plus profonde avec le client qui développe alors un attachement plus important pour la marque. Les clients sont généralement sensibles à ce type de programme qui permet de dépasser la simple relation commerciale et de mettre en avant des valeurs importantes pour l’entreprise.

#5 Le programme de fidélité par palier : Philosophy

Philosophy programme de fidélité

La marque de produits cosmétiques Philosophy a choisi un type de programme de fidélité semblable à celui à points, mais en y incluant un système supplémentaire de paliers. Comme pour le système à points, le client dispose d’une certaine cagnotte liée à son activité lui permettant d’accéder à des avantages exclusifs. Cependant, le programme de Philosophy présente deux différences notables :

  • Le multiplicateur de points :

Les clients sont répartis en 3 niveaux en fonction du nombre de points dont ils disposent. A chaque niveau est associé un multiplicateur de points. Ainsi, un client au premier niveau gagne des points à chaque achat selon une grille, au deuxième niveau le nombre de points gagnés est multiplié par 1,25 et au troisième niveau par 1,5. Les avantages du multiplicateur sont même renforcés pendant le mois de l’anniversaire du client.

Ce système récompense ainsi les clients à la hauteur de leur fidélité. Plus encore la marque les incite directement à passer à l’échelon supérieur en leur envoyant mensuellement un « compteur de gratitude » et surtout en proposant une gamme d’articles sélectionnés pour le client à partir de ses commandes passées.

  • Gain de points supplémentaires :

Philosophy ne récompense pas seulement les achats mais aussi l’activité de ses clients sur les réseaux sociaux. Des points supplémentaires peuvent être gagnés en échanges d’actions en ligne, comme le fait de suivre la marque sur les réseaux ou d’écrire un avis. De plus, la marque a intégré le parrainage dans son système à points.

Philosophy a donc mis en place un programme de fidélité très complet, qui récompense les différentes facettes de la fidélité du client à la hauteur de son attachement à la marque.

#6 Le programme de fidélité payant avec Barnes & Noble

Barnes and Noble programme de fidélité

Ce type de programme de fidélité se distingue sensiblement de ceux évoqués précédemment, car le client doit ici payer pour en faire partie. Si cette stratégie peut sembler contre intuitive au premier abord, elle peut cependant s’avérer très efficace pour inciter le client à finaliser sa commande et ainsi augmenter la LTV des membres du programme.

En effet, en rendant payant l’accès à des avantages exclusifs, l’entreprise est en mesure de proposer un service plus complet et plus attrayant. Ces avantages permettent de réduire le taux d’abandon de panier – de plus de 75% – en réduisant drastiquement le nombre de barrières à l’achat. Ces barrières à l’achat, telles que les frais et délais de livraison, peuvent ainsi être supprimées avec des offres de livraison gratuite et/ou prioritaire, des coupons de réductions …

Barnes and Noble propose un tel type de programme de fidélité : pour 25€ par an, le client a accès à un service de livraison gratuit, à des ventes exclusives et à de nombreuses réductions.

Il est cependant primordial de porter une attention particulière à la valeur que l’offre représente pour un client lorsque l’on met en place ce type de programme. Les économies potentiellement réalisées grâce à ce type d’offre doivent être suffisamment supérieures au coût de l’abonnement pour convaincre le client d’y souscrire.

#7 Autre type de programme de fidélité : les abonnements

Le petit ballon programme de fidélité

Les abonnements peuvent être considérés comme une forme de programme de fidélité qui donne un accès exclusif à un service uniquement réservé aux clients abonnés.

Ce type d’offre présente un avantage particulier par rapport aux autres programmes : en engageant les clients sur une certaine durée, une entreprise va mécaniquement augmenter la LTV de sa clientèle. Généralement, le coût mensuel d’un abonnement est inversement proportionnel à la durée de l’engagement. Ainsi l’entreprise fidélise ses clients sur la durée et les incite à rester sur le long terme.

Le petit ballon, une marque permettant de découvrir chaque mois des bouteilles de vin livrées à domicile, fidélise sa clientèle au travers d’abonnements. Il n’est pas possible d’avoir accès à ce service pour une durée inférieure à 3 mois, ce qui garantit à l’entreprise un minimum de 3 achats par clients abonnés.

Le système d’abonnement suppose néanmoins que le client est disposé à payer de manière régulière pour avoir accès aux produits de l’entreprise. C’est donc un programme de fidélité particulièrement efficace, mais dont la mise en place dépend évidemment du type de service que propose la marque.

En conclusion : cherchez la simplicité

Il existe de nombreuses variantes des programmes de fidélités, chacune ayant ses spécificités, qui permettent d’attirer les clients auprès de la marque et d’accroître leur Lifetime Value.

Cependant, la condition nécessaire à la réussite de tous ces programmes reste l’engagement des clients. Un membre d’un programme de fidélité doit y souscrire et en faire usage pour que la mise en place d’un tel système soit source de valeur pour l’entreprise.

Notre recommandation principale, quel que soit le type de programme, est donc : la simplicité. Il est nécessaire de mettre en place un système simple et facile à comprendre pour que le client y adhère et en fasse usage régulièrement.

De l’application Nike à l’offre d’abonnement Le petit ballon, tous les exemples que nous avons sélectionnés proposent une offre que l’on comprend instantanément – coach running, livraison gratuite, ventes privées… – et dont on saisit directement la valeur. Le client peut ainsi facilement se projeter et est alors plus susceptible de devenir membre du programme.

ROPO : Comment mesurer son impact et en tirer parti ?

Vous avez un site e-commerce. Certains visiteurs s’y rendent pour faire leurs recherches mais finalisent leur parcours d’achat en magasin. Il y a donc une part du CA des magasins qui est attribuable en droit au digital. Comment la mesurer ? C’est l’enjeu du ROPO, un enjeu d’attribution très simple à comprendre, plus difficile à traiter.

Les enjeux liés au ROPO sont plus actuels que jamais. Les points de contact dans le Retail se sont multipliés. On parle maintenant de commerce omnicanal, de « commerce unifié ». Les barrières entre le digital et le offline sont enjambées sans scrupule par les consommateurs.

Contrairement à ce qu’on prédisait il y a 10 ou 20 ans, le e-commerce n’a pas dépassé le commerce physique, qui reste loin devant. Le vrai chantier de travail consiste par conséquent à améliorer la coordination du online et du offline pour générer plus de ventes en ligne et en magasin.

Le ROPO est un comportement client qu’il faut intégrer dans les modèles d’analyse de la performance.

Notre volonté dans cet article est double :

  • Vous aider à mesurer le ROPO, c’est-à-dire la part des ventes offline attribuable à vos efforts digitaux (site web, email…).
  • Vous montrer comment on peut utiliser le ROPO pour améliorer le chiffre d’affaires global de l’entreprise.

Ajoutons que le ROPO est un enjeu marketing ET organisationnel. On ne peut pas faire l’impasse sur ce deuxième aspect. Bon nombre des problèmes business auxquels peut faire face une entreprise trouvent leur origine dans des problèmes d’organisation.

En l’occurrence, beaucoup de retailers se sont développés en deux pôles séparés : un pôle magasins et un pôle e-commerce. Force est de constater que les objectifs des responsables de magasins ne sont que très rarement harmonisés avec les objectifs des responsables e-commerce. Cela crée des problèmes en interne en termes d’attribution des ventes, si ce n’est des conflits.

La mesure et la prise en compte du ROPO ont aussi pour finalité de casser cette logique pour que les deux dimensions – online & offline – ne soient plus concurrentes mais complémentaires, et que toutes les fonctions business de l’entreprise aillent dans la même direction.

Le ROPO : un enjeu marketing encore et toujours d’actualité pour les retailers

Research Online Purchase Offline [ROPO] – Définition

ROPO est l’acronyme de Research Online, Purchase Offline. Le ROPO décrit la part du chiffre d’affaires réalisé en magasin qui revient aux efforts investis online.

Il n’y a pas un commerçant qui ne doute de l’influence du online sur le offline. Combien de parcours d’achat commencent sur le web pour s’achever en magasin ?

« Je cherche un produit sur un site internet en utilisant mon ordinateur ou mon mobile, je le trouve, je cherche le magasin le plus proche de chez moi, je vérifie qu’il a ce produit en magasin, si oui je m’y déplace pour l’acheter ».

Le offline peut aussi influencer les ventes online, même si c’est moins le sujet de notre article :

« Je me balade dans la rue par une belle journée estivale, j’entre dans un magasin, je découvre mon futur frigidaire dans les rayons, mais je préfère commander sur le site web pour bénéficier de la livraison ».

Voici deux exemples typiques de la manière dont le online et le offline peuvent s’intégrer dans un même parcours d’achat. Nous aurions aussi pu parler du click & collect, bien sûr. On utilise le web pour acheter, mais aussi pour trouver un magasin ou vérifier que le magasin a le produit recherché.

La part des ventes en magasin attribuable au digital porte le nom d' »effet ROPO ».

ropo marketing effect
Source : Google.

En 2008, Google France publiait les résultats d’une enquête mettant en avant l’effet ROPO. Dans le schéma ci-dessous, extrait de cette étude, on peut voir que beaucoup de recherches en ligne aboutissent sur un achat en magasin. L’inverse existe aussi, mais dans une proportion beaucoup plus faible. Ces chiffres sont périmés mais ont pour mérite de montrer que le ROPO n’est pas une réalité nouvelle.

effet ropo etude google
Source : Google. Il s’agit des résultats d’une enquête menée en 2008. Beaucoup de choses ont changé depuis. La part de recherches réalisée en ligne est bien supérieure à 39% aujourd’hui, mais on voit déjà, en 2008, qu’une partie des recherches en ligne aboutit à des achats en magasin. C’est la définition même de l’effet ROPO.

On pourrait multiplier les statistiques démontrant l’impact du comportement ROPO. Il y a par exemple une étude de DigitasLBi Global Survey menée en 2014 qui nous apprend que 88% des consommateurs font des recherches en ligne avant d’acheter en magasin (Source). On a aussi trouvé une étude du très sérieux organisme Statista qui mesure l’impact du ROPO pour chaque famille de produits. L’étude est plus récente (2021) mais ne concerne que le marché polonais…Si ça vous intéresse, vous pouvez aller y jeter un œil.

Il est finalement assez difficile de trouver des chiffres, des études. La faiblesse de la littérature statistique illustre la difficulté qu’il y a à mesurer l’effet ROPO. Mais nous allons vous donner des techniques pour y arriver 🙂

Pourquoi cette tendance est toujours d’actualité ?

L’effet ROPO a été mis en évidence il y a 15 ans mais il est plus d’actualité que jamais. Pourquoi ? Parce que, plus que jamais :

  • Les consommateurs lisent des avis clients en ligne avant de se déplacer en magasin pour acheter. Les avis clients sont utilisés pour se faire une idée sur un produit, un service, une marque, un magasin…Une étude du cabinet McKinsey de 2021 a montré que le volume d’avis clients déposés en ligne avait bondi de 87% entre 2019 et 2020. La lecture des avis est devenue un incontournable en phase de recherche.
  • Les consommateurs utilisent internet pour trouver leur magasin. Une étude Bright Local de 2017 montre que 97% des consommateurs utilisent le web pour trouver un magasin proche de chez eux. On utilise le web non seulement pour découvrir des produits et les notes attribuées par les clients à ces produits, mais aussi pour trouver des magasins où se déplacer.

comportement ropo etude bright local

  • Les consommateurs utilisent le web pendant leur expérience en magasin. Beaucoup de consommateurs sortent leur smartphone quand ils sont en magasin que ce soit pour comparer les prix, télécharger leur coupon, vérifier s’il existe des promotions sur le site, scanner des QR codes, chercher des produits.

La conclusion qui s’impose est simple : la plupart des achats en magasin sont l’aboutissement d’un parcours d’achat qui a commencé sur le web.

Pourquoi les magasins physiques sont-ils encore si importants ?

On a un moment cru que l’ecommerce prendrait la place du commerce physique, que les boutiques en ligne finiraient par remplacer les magasins physiques. Force est de constater que cette prédiction ne s’est pas accomplie.

Le commerce en ligne (produits et services) a encore connu une belle progression en France en 2021, s’établissant à 129 milliards d’euros. Mais il faut remettre les choses en perspective et rappeler que cela ne représente que 14,1% du commerce de détail (Source : Fevad). Près de 5 achats sur 6 sont donc réalisés en magasin.

statistiques ecommerce france
Source des données : Fevad. Graphique produit par Comarketing News. Malgré la progression importante et continue du ecommerce, la vente en ligne ne représentait que 14,1% du commerce de détail en 2021 en France.

Comment expliquer la place toujours largement prédominante des magasins dans le commerce de détail ?

Il y a deux raisons principales selon nous :

  • Les clients aiment essayer les produits avant de les acheter. Et ça, ce n’est pas possible sur une boutique en ligne…On recherche en ligne, mais on préfère se déplacer en magasin pour toucher, essayer, regarder, sentir avant d’acheter.
  • Les clients ont une aversion pour la livraison. Sur internet, la livraison est le principal frein à l’achat. Les délais de livraison, les coûts de livraison, la complexité des procédures de retour font partie des principales raisons des abandons de panier.

Comment mesurer l’impact du digital sur les ventes physiques ?

Passons maintenant de la théorie à la pratique. Il existe trois approches pour mesurer l’impact du digital sur les ventes en magasin.

#1 Créer un multiplicateur ROPO basé sur les données Google Analytics

Cette technique permet de mesurer la contribution indirecte de votre site ecommerce sur vos ventes en magasin en utilisant Google Analytics.

Précisons d’entrée de jeu que le calcul du ROPO repose nécessairement sur un modèle d’attribution probabiliste, et non déterministe (sauf dans le cas du click & collect).

Des signaux ROPO aux hypothèses

La démarche consiste d’abord à :

  • Identifier les signaux du comportement ROPO. Le store locator est l’exemple de signal par excellence d’un comportement ROPO. Vous pouvez légitimement faire l’hypothèse qu’un visiteur de votre site qui recherche sur votre site web le magasin le plus proche de chez lui a l’intention de se déplacer en magasin pour acheter.
  • Construire des hypothèses crédibles, basées sur l’expérience de l’équipe marketing, sur les résultats des campagnes marketing passées. Il y aura forcément une dose d’intuition dans ces hypothèses, il est impossible de faire autrement. Pour chaque signal identifié, vous devez faire 3 hypothèses :
    • Le pourcentage de signaux qui se transforme en visite en magasin. Si l’on reprend notre exemple, il est possible d’estimer le pourcentage d’utilisateurs du store locator qui sont vraiment en recherche active d’un magasin en analysant de manière avancée les parcours web dans Google Analytics.
    • Le pourcentage de visites en magasin qui se transforment en achat (taux de conversion en magasin).
    • Le panier moyen des visiteurs de magasins provenant du site web. Vous pouvez vous baser sur le panier moyen qui apparaît dans vos reportings.

Des hypothèses au calcul de l’effet ROPO

Ces hypothèses vont vous permettre de calculer le revenu offline attribuable à votre site ecommerce. Si vous avez 10 000 visiteurs par mois qui utilisent le store locator, que vous faites les hypothèses que 20% se déplaceront effectivement en boutique, que 40% d’entre eux achèteront pour un panier moyen de 50 euros, vous pouvez estimer que le chiffre d’affaires généré grâce au store locator de votre site web est de :

10 000 x 0,20 x 0,40 x 50 = 40 000 €

Vous devez faire le même calcul pour tous les signaux digitaux que vous avez identifié.

Il faut aussi, bien entendu, intégrer les achats click & collect.

De l’effet ROPO au calcul du coefficient multiplication ROPO

Une fois que vous avez une estimation du chiffre d’affaires magasin généré grâce au ecommerce, vous pouvez définir un coefficient multiplicateur ROPO. Il se calcule en divisant le chiffre d’affaires online par le chiffre d’affaires généré en magasin grâce au site. Si votre ecommerce génère 100 000 euros de CA par mois et que le CA généré offline grâce au site est estimé à 50 000 euros, votre coefficient est de 2.

Ce coefficient multiplicateur vous permet de gagner du temps dans le calcul du ROPO. Vous avez fait 200 000 euros de CA ecommerce ce mois-ci ? Alors, le CA ROPO est de 100 000 euros. Vous n’avez plus qu’à intégrer ce coefficient dans le compte de résultats pour mesurer la contribution réelle du digital au chiffre d’affaires global de l’entreprise.

#2 Evaluer la contribution de l’email sur le CA des magasins

La première technique permet de mesurer la part du site ecommerce dans le CA en magasin. La deuxième technique que nous allons vous présenter va vous permettre cette fois de mesurer la contribution de l’email, de vos campagnes et scénarios d’emailing.

Là encore, il s’agit de construire un modèle d’attribution basé sur des hypothèses. La technique consiste à attribuer X% des ventes offline au canal email en fonction des ouvertures et clics dans vos emailings. Il est important de prendre en compte la dimension temporelle, c’est-à-dire le temps qui s’écoule entre l’ouverture ou le client et la vente offline.

Voici la démarche à suivre :

  • Vous définissez les campagnes emailings qui entrent dans le périmètre de votre calcul, à savoir : les campagnes emailings qui selon vous ont un impact sur les ventes physiques. Vous pouvez intégrer toutes les campagnes de nature promotionnelle.
  • Vous définissez une règle d’attribution : si 100 clients cliquent dans un email et qu’ils achètent en magasin dans les XX jours suivant l’ouverture, alors vous attribuez YY% des ventes au canal email. Il y a donc 2 choix à faire, et même 3 :
    • Le choix de l’événement email : l’ouverture ou le clic. Le clic témoigne d’un niveau d’engagement plus élevé que la simple ouverture. Nous avons pour cette raison tendance à conseiller à nos clients d’utiliser le clic.
    • Le choix de la plage de temps : 30 jours, 45 jours, 60 jours…Le choix doit être cohérent avec le cycle d’achat moyen et les habitudes d’achat dans votre secteur d’activité.
    • Le pourcentage d’attribution au canal email en cas de conversion magasin.

Ce modèle d’attribution n’est possible que si et seulement si vous identifiez les clients qui achètent en magasin, au moyen du programme de fidélité ou autre.

#3 Evaluer la contribution du site web sur le CA des magasins

Cette troisième approche est une alternative à la première approche basée sur le coefficient multiplicateur ROPO. Elle est identique à la deuxième approche dans son fonctionnement.

La technique utilisée pour mesurer la contribution du canal email aux ventes offline peut en effet aussi être utilisée pour mesurer la contribution du site ecommerce. Si un internaute visite le site ecommerce et qu’il achète en magasin dans les XX jours suivant, la vente est attribuée au ecommerce. On peut ajouter plus de granularité dans l’analyse en déclinant :

  • Selon le canal d’acquisition du visiteur ecommerce : SEO, AdWords…
  • Selon le nombre de pages visitées : on peut par exemple décider d’attribuer 20% d’une vente physique au site ecommerce si le visiteur a visité 2 pages, 40% s’il a visité 10 pages, etc.
  • Selon la nature des pages visitées, leur degré d’intention. Si le visiteur visite la page produit du produit X et qu’il achète ce produit X en magasin 10 jours après, l’attribution est plus évidente que si ce visiteur avait visité la page d’un produit appartenant à une autre famille (ou, pire, une page institutionnelle).

Il existe beaucoup de possibilités pour complexifier le modèle, mais une chose est sûre : il n’est praticable que sur les visiteurs identifiés du site web et en magasin.

Comment transformer l’effet ROPO en opportunités business ?

L’analyse du ROPO ne sert pas simplement à améliorer l’attribution des ventes entre le digital et le offline. Le ROPO peut aussi être utilisé comme levier pour améliorer la stratégie marketing et générer plus de revenus. Voici quelques pistes d’actions.

Utiliser le ROPO pour adapter la stratégie marketing et augmenter les ventes (online et offline)

L’analyse de l’effet ROPO permet d’adapter sa stratégie marketing afin d’augmenter la conversion en magasin et sur le site. Dans un de ses articles de blog, Matthieu Tranvan, expert marketing, propose une démarche intéressante. Elle consiste à construire une segmentation client basée sur le ROPO.

Le graphique ci-dessous, tiré d’un cas client de Matthieu Tranvan, présente les différences de taux de conversion en fonction de deux variables :

  • La présence ou non d’un magasin dans la région du visiteur web.
  • L’utilisation ou non du store locator.

ropo attribution canal ecommerce

Les résultats ne sont pas surprenants : un visiteur qui utilise le store locator et qui découvre qu’il existe un magasin près de chez lui convertira beaucoup moins sur le site ecommerce. Il se sert du site ecommerce pour trouver son magasin et se déplace dans le magasin proche de chez lui pour effectuer son achat.

On peut dégager 3 personas à partir de cette analyse :

  • Persona 1 : une personne vivant en zone urbaine, plutôt jeune, qui utilise le site pour trouver un magasin proche de chez lui. Il préfère acheter en magasin.
  • Persona 2 : une personne qui vit également en zone urbaine mais qui préfère acheter en ligne plutôt que de se déplacer en magasin. Elle n’utilise pas le store locator. On peut imaginer une personne urbaine mais plus âgée ou une personne avec des enfants à charge – en tout cas il s’agit d’une personne moins encline à marcher ou à prendre sa voiture pour effectuer un achat.
  • Persona 3 : une personne qui est en dehors de la zone de chalandise d’un magasin, qui habite probablement en zone rurale ou périphérique. Cette personne utilise le site internet pour faire ses achats, par nécessité plus que par choix.

Voici un exemple de segmentation que l’on peut créer à partir d’une analyse du ROPO. Cette segmentation peut ensuite être utilisée pour affiner sa stratégie marketing et ses offres promotionnelles : remise en magasin, livraison offerte, livraison en 1 jour…

Le ROPO comme levier pour augmenter la conversion web

Pour finir nous allons vous présenter trois techniques consistant à augmenter la conversion web grâce au ROPO.

#1 Améliorer votre scénario de relance de panier abandonné

La première consiste à intégrer les achats en magasin dans votre scénario de relance de panier abandonné. Imaginez une personne qui visite votre site web, qui ajoute un produit à son panier et l’abandonne avant de finaliser la commande. Que faites-vous ? Vous lui envoyez un message de relance. C’est comme ça que fonctionne tout bon scénario de relance de panier abandonné.

Sauf qu’il est possible que ce client décide d’acheter le produit en magasin. Combien de paniers abandonnés sur le web se transforment en paniers achetés en magasin ? Plus que vous ne le croyez !

Notre conseil : intégrez les données transactionnelles magasins dans votre scénario de relation de panier abandonné. Cela vous permettra de ne pas envoyer l’email de relance aux clients qui ont finalement acheté en magasin, mais de leur envoyer à la place un email post-transactionnel. Cela suppose d’étendre un petit peu le délai avant l’envoi du message de relance…

#2 Inciter à l’achat les visiteurs du site web pendant leur recherche sur votre site

S’il y a un effet ROPO, cela veut bien que vos clients commencent leur parcours d’achat sur votre site ecommerce. Il existe des leviers pour augmenter le taux de conversion ecommerce, pour inciter les visiteurs à convertir plus rapidement pendant leur phase de recherche. Comment ? En levant les freins à l’achat en ligne.

C’est-à-dire ? Par exemple, en mettant en avant le fait que la livraison est gratuite si c’est le cas, que les retours sont gratuits, si c’est le cas, en améliorant la visibilité des produits qui correspondent aux préférences, habitudes, comportements navigationnels des visiteurs, etc. Vous pouvez aussi inciter les visiteurs à conclure leur achat sur le web en leur proposant des remises, un cadeau au-delà de X euros achetés, etc.

Cet article n’a pas pour vocation de vous détailler les différentes stratégies possibles pour augmenter le taux de conversion d’un site ecommerce, mais sachez que si vous avez un effet ROPO, c’est d’abord parce que votre site ecommerce est un point de contact clé de votre business. Un point de contact qui peut être optimisé.

#3 Mesurer l’effet ROPO des campagnes Facebook Ads

Facebook propose une fonctionnalité qui permet de mesurer l’impact des publicités sur les achats en boutique. Vous pouvez tracer les achats en magasin qui ont eu lieu suite à une exposition à une annonce Facebook.

Pour utiliser cette fonctionnalité, vous devez charger vos données clients (email, téléphone, nom et prénom, adresse, date de naissance) dans votre compte Facebook. Cela vous permet ensuite d’identifier les achats magasin réalisés suite à l’exposition à une publicité. Vous pouvez régler la durée : 24 heures, 7 jours, 28 jours…

Nous arrivons à la conclusion de cet article.

Résumons les 2 enjeux du ROPO :

  • Réussir à le mesurer pour rendre à César ce qui est à César, en identifiant la part des ventes offline que l’on doit attribuer au digital (site ecommerce, emailings…).
  • Exploiter l’analyse de l’effet ROPO pour booster aussi bien les ventes ecommerce que les ventes en magasin.

Nous avons abordé ces deux sous-sujets, sans avoir la prétention de les épuiser. Mais nous espérons que cet article a répondu aux principales questions que vous vous posiez sur le ROPO.

Vous l’aurez compris, la mesure et l’utilisation du ROPO supposent une bonne intégration des données, une réconciliation des données online et offline.

C’est là qu’une Customer Data Platform légère comme Octolis peut intervenir.

En tant qu’éditeur, mais aussi dans notre ancienne vie de consultants, nous avons eu l’occasion d’accompagner des entreprises confrontées à des enjeux d’attribution dont celui du ROPO.

Si vous êtes en prise avec ces problématiques, qui sont aussi de beaux challenges à relever, nous pouvons en discuter ensemble. N’hésitez pas à nous contacter si vous voulez savoir comment une solution comme Octolis peut vous aider à intégrer l’effet ROPO dans votre stratégie marketing. On vous répondra rapidement, promis.

Pourquoi ma société est-elle passée d’Excel à Power BI ?

Pour lire, analyser et interpréter les data, la première solution d’une entreprise est souvent l’utilisation de tableurs tels qu’Excel ou Google Sheets. Les fonctions de création de visuels de ces outils permettent de rapidement faire parler nos données. Mais ces tableurs ont leurs limites, et beaucoup d’entreprises ont fait le choix de passer à des outils de data visualisation tels que Power BI (développé par Microsoft, Power BI est actuellement le leader sur le marché des outils de data visualisation).

Nous avons recueilli le témoignage de Rémi et Pierre, ils ont tous les 2 fait le choix de passer d’Excel à Power BI au sein de leur entreprise, mais avec des profils assez différents :

  • Rémi est Sales Manager, et ex Data Manager à BMS International (Vendeur Amazon dans le top 100 des vendeurs Amazon européens). A BMS International, ils utilisent la data tous les jours pour suivre la rentabilité de nos produits, fournisseurs, transporteurs, équipes…
  • Pierre est PDG de la société AXAL, leader de la livraison spécialisée, le déménagement et le transport d’œuvres d’Art dans le grand Est. Afin de rester concurrentiel, AXAL a besoin de franchir un cap dans l’exploitation de la grande quantité de données qu’ils ont en leur possession.

Jean-Pascal Lack

Data Viz & Power BI Expert

Ingénieur centralien et expert Power BI avec plus de 7 années d’expérience, Jean-Pascal a accompagné de nombreuses entreprises (des grands groupes comme Sanofi, LVMH à des PME) à mettre en place des tableaux de bords Power BI pour différents usages métiers.

D’où vous est venue l’idée de passer à Power BI ?

🗣️ Rémi

Notre start-up étant assez jeune, nous utilisions uniquement des fichiers Google Sheets pour faire du reporting. Cependant, au fur et à mesure que nous grandissions, le nombre de data a exploité a grandi exponentiellement, et nous nous sommes vite retrouvés face aux limites de Google Sheets : une taille de fichier limité à 4 millions de cellules, et un fichier qui devient déjà lent dès le franchissement du seuil d’1 million de cellules.

On ne pouvait donc pas conserver la data au niveau le plus fin (détail des ventes au jour), nous étions alors obligés d’agréger les data à la semaine voire au mois : cela avait un double désavantage, nous perdions non seulement en finesse des data et donc d’analyse, mais l’agrégation des data était aussi un travail long et manuel.

Par ailleurs, dès que l’on voulait analyser la data selon un nouvel axe (par marque, année de lancement, zone de production, performance des produits), il fallait recréer un outil pour transformer et agréger la data selon l’axe voulu.

Nous avons donc fait le choix de nous tourner vers un outil de data visualisation, dont contrairement à Excel ou Google Sheets, la fonctionnalité première est l’analyse et la visualisation des données.

🗣️ Pierre

Dans notre société nous avons 3 ERP différents pour chacun de nos services. Il en résulte que la data ainsi que les quelques tableaux de bord étaient éparpillés.

Nous avons donc fait le choix de passer à un outil de data visualisation pour améliorer ces 2 points d’une part automatiser l’extraction de la data, d’autre part faciliter et centraliser l’accès à nos tableaux de bord.

Suite à un audit sur notre stratégie digitale ainsi qu’une recommandation de notre partenaire KPMG, nous avons creusé la piste de l’outil de data visualisation Power BI.

Nous nous sommes alors aperçus des points ci-dessous qui nous ont confortés sur le choix de Power BI :

  • Power BI est intégré à la suite Microsoft 365 (que l’on utilise déjà chez nous)
  • Il est possible de consulter nos rapports Power BI directement via le web (sans avoir à installer un logiciel)
  • Power BI est largement utilisé dans le monde de l’entreprise et est leader sur son marché

💡 L’avis de Jean-Pascal Lack, expert Power BI

Avec la grande quantité de données éparpillées dans les différents outils qu’utilise une entreprise, il devient très difficile d’analyser précisément la data, soit juste avec un simple tableur, soit via les indicateurs standards mis à disposition par l’outil.

Pour permettre à son entreprise de faire les meilleurs choix, en s’appuyant sur des KPI explicites, adéquats et précis, l’utilisation d’un outil de data visualisation devient vite nécessaire. Ils sont une multitude à avoir émergé ces dernières années, dont le leader actuel est Microsoft Power BI.

Que vous apporte Power BI de plus comparé à Excel ?

🗣️ Rémi

La migration vers Power BI nous a permis de revoir nos différentes règles métiers ainsi que les transformations depuis nos sources de données. Alors qu’avant nous avions des règles de métiers différentes en fonction des outils/ services, désormais nous avons homogénéisé nos règles et centralisé au même endroit toutes nos sources de données. Cela nous a permis d’améliorer grandement notre confiance en nos données.

« Désormais nous avons homogénéisé nos règles et centralisé au même endroit toutes nos sources de données. Cela nous a permis d’améliorer grandement notre confiance en nos données »

 
Par ailleurs, une fois le modèle de données créé sous Power BI, une autre grande force de Power BI est sa capacité de filtrer facilement et rapidement la donnée selon plusieurs axes de son choix. Nous avons pu gagner en profondeur de l’analyse et identifier des patterns qui ne nous étaient pas facilement accessibles auparavant.

🗣️ Pierre

Excel est très flexible, mais malheureusement Excel ne permet pas de facilement d’extraire de la donnée. Cette étape d’extraction de la donnée de nos différents outils était donc très chronophage et les collaborateurs n’avaient pas le temps de produire (et donc consulter !) les indicateurs internes. Par faute de temps, ils produisaient et consultaient les indicateurs seulement lorsque cela leur était directement demandé.

Grâce au module d’extraction et de transformation de données de Power BI, le temps de production de nos rapports a été divisé par 4 au moins ! Désormais les collaborateurs produisent et consultent quotidiennement les différents indicateurs et cela change complètement notre manière de piloter nos activités. Nous allons même extraire des informations avec Power BI dans des fichiers PDF, ce qui nous semblait à l’époque inimaginable car trop manuel.

« Grâce au module d’extraction et de transformation de données de Power BI, le temps de production de nos rapports a été divisé par 4 au moins ! »

 
Par ailleurs, la mise en forme est plus poussée avec Power BI, ce qui permet de faire des tableaux de bord très clairs. En témoigne l’adoption très rapide de Power BI par les différents services, chacun a désormais son tableau de bord.

💡 L’avis de Jean-Pascal Lack, expert Power BI

Power BI est bien plus performant que Excel dans bien des domaines, mais si je devais donner mon top 3, cela serait :

  1. Automatisation et extraction des données.Power BI peut se connecter à une multitude de sources de données (fichier Excel, CSV, PDF, TXT, site web, base de données, outils en ligne tels qu’Asana, Zendesk, Google Analytics mais aussi à un dossier contenant des centaines de fichiers Excel ayant un format similaire) via son ETL (Power Query).
    Par ailleurs Power BI dispose d’une interface de mise à jour automatique des données d’un tableau de bord ce qui permet de s’assurer que les utilisateurs consultent toujours un tableau de bord à jour.
  2. Accepte un gros volume de données. Power BI peut se connecter à plusieurs sources de données, créer plusieurs tables de données, les nettoyer, les transformer, les relier entre elles, et ceci sur plusieurs dizaines de millions de lignes de données. Pour le lecteur d’un tableau de bord sous Power BI, l’affichage des visuels sera quasiment instantané, il ne remarquera même pas que derrière un simple visuel se cachent en réalité des millions de lignes d’informations. Cela est littéralement impossible sur un tableur tel qu’Excel.
  3. Interface de création de visuel très user-friendly. Pas besoin d’être un expert en UX pour faire des rapports clairs via Power BI ! L’interface se base principalement sur un système de drag & drop ce qui la rend très intuitive. Par ailleurs, Power BI propose une grande sélection de visuels, même des cartes géographiques, qui sont paramétrables et personnalisables en quelques clics sans taper une ligne de code.

Quelles sont vos limites actuelles avec Power BI ?

🗣️ Rémi

Au début, nous nous attendions à migrer tous nos rapports et outils Excel sous Power BI. Cependant, il est important de noter qu’un utilisateur ne peut pas rentrer de la data dans Power BI, car Power BI se limite à être un outil spécialisé dans la data visualisation.

Nous avons alors compris que l’on ne remplacera pas tous nos fichiers Excel par des rapports Power BI, mais plutôt que Power BI est complémentaire à Excel, puisque c’est l’outil qui permet de visualiser des données rentrées sous Excel.

« on ne remplacera pas tous nos fichiers Excel par des rapports Power BI, mais plutôt que Power BI est complémentaire à Excel, puisque c’est l’outil qui permet de visualiser des données rentrées sous Excel. »

 

🗣️ Pierre

L’interface de Power BI est relativement facile à prendre en main, ce qui nous permet après une petite formation de créer assez facilement nous-même des rapports assez simples. Par contre, si l’on veut créer des KPI sur mesure, ou faire des tableaux de bords plus poussés, nous avons besoin d’un expert Power BI, c’est là que nous avons fait appel à un consultant externe.

💡 L’avis de Jean-Pascal Lack, expert Power BI :

Grâce à son interface intuitive, un utilisateur novice ayant eu une formation peut rapidement créer son propre tableau de bord. En revanche, dès que l’on veut créer un tableau de bord se basant sur plusieurs tables de données ou créer des indicateurs spécifiques, il faudra faire appel à un utilisateur expérimenté sur Power BI, afin de garantir d’avoir à la fois un rapport performant, mais aussi des KPI justes.

Par ailleurs, il ne faut pas avoir à choisir entre Excel ou Power BI, ce sont avant tout deux logiciels complémentaires. Excel est un tableur, il permet de très facilement de saisir de la donnée, alors que Power BI est un outil qui permet entre autres de justement de mieux visualiser la donnée qui est présente dans ses fichiers Excel.

A-t-il été difficile pour votre société de vous former sur Power BI /de trouver des personnes avec ces compétences ?

🗣️ Rémi

Nous avons pris plus d’un an pour trouver la bonne personne ! Etant donné que nous n’avions aucune personne avec un profil IT, nous cherchions plus qu’un simple développeur Power BI, mais un analyste qui pouvait avoir une vraie compréhension des enjeux du business, et qui pouvait tout prendre en charge, de la rédaction du cahier des charges, au développement et déploiement de la solution au sein de l’entreprise.

Par ailleurs, du fait de la spécificité de notre activité, nos besoins en reporting évoluent quasiment tous les trimestres. C’est pourquoi nous avons fait le choix de recruter en CDI un expert data avec plusieurs années d’expérience.

🗣️ Pierre

Nous n’avions pas la compétence en interne et nous n’avions pas besoin d’une personne à temps plein sur Power BI, suite à des recommandations nous nous sommes donc tournés vers la plateforme de freelance Malt.

Depuis 6 mois désormais, un freelance expert Power BI nous accompagne à hauteur de 3 heures par semaine sur la mise en place et le déploiement de tableaux de bord Power BI.

Lors de la sélection de notre freelance, nous avons mis l’accent sur l’aspect pédagogique du freelance. En effet, nous voulions devenir au maximum autonomes sur la création, la maintenance et l’évolution de nos tableaux de bord. Nous avons désormais plusieurs personnes chez nous qui peuvent créer par eux-mêmes leurs propres tableaux de bord via Power BI !

« Lors de la sélection de notre freelance, nous avons mis l’accent sur l’aspect pédagogique du freelance. En effet, nous voulions devenir au maximum autonomes sur la création, la maintenance et l’évolution de nos tableaux de bord. »

 

💡 L’avis de Jean-Pascal Lack, expert Power BI :

Si vous voulez déployer Power BI au sein de votre entreprise, le recrutement d’un expert Power BI est recommandé pour vous assurer que les bons choix sont faits dès le début.

En fonction de votre profil et de votre besoin, vous pourrez alors vous tourner vers une des 3 solutions suivantes : recruter en interne, recruter un freelance, ou passer par une ESN.

Le choix de l’ESN est souvent le plus sécurisé (où l’ESN aura la charge de répondre précisément à votre besoin, et disposera d’une expertise approfondie sur tous les sujets de la data), mais la plus chère.

Le recrutement d’un freelance expérimenté (via une des multiples plateformes qui existent) est une solution qui présente l’avantage d’être très rapide et flexible, tout en combinant un bon rapport qualité/prix.

Enfin le recrutement en interne vous assurera un meilleur transfert de connaissances au sein de votre entreprise. C’est l’option la moins chère mais aussi la moins flexible.

De la stack data moderne à l’expérience data moderne

Qu’est-ce que la stack data moderne ?

La stack data moderne a un sens différent suivant la personne à qui vous vous adressez.

Pour les ingénieurs analytics, c’est un bouleversement technologique majeur. Pour les fondateurs de startups, c’est une révolution dans la manière de travailler. Pour les investisseurs, ce sont des dizaines de milliards de dollars levés et un marché florissant. Pour Gartner, la stack data moderne est à la base d’une stratégie data & analytics totalement nouvelle.

Etc. Etc.

Pour nous, la stack data moderne rend simple, rapide, souple et abordable ce qui était autrefois compliqué, long, rigide et coûteux.

Il fallait autrefois dépenser des dizaines de milliers d’euros pour maintenir une base de données qui tombait régulièrement en panne, embaucher un ingénieur à temps plein pour intégrer les données Salesforce au data warehouse, payer toute une équipe de développeurs pour permettre aux analystes d’utiliser SQL dans un navigateur.

Aujourd’hui, tout cela ne vous prend que 30 minutes. C’est un game changer incroyable.

Les organisations n’ont pas encore pleinement pris conscience de la révolution apportée par la stack data moderne. C’est notre conviction et c’est aussi celle partagée par Benn Stancil, chief analytics officer et fondateur de Mode, dans une très belle tribune publiée sur son blog « The Modern Data Experience« . Nous nous en sommes très largement inspirés pour rédiger l’article que vous vous apprêtez à découvrir.

Nous le rejoignons complètement sur la nécessité de penser la stack data moderne comme une expérience. La finalité n’est pas de construire une nouvelle architecture data/tech, c’est de transformer l’expérience des utilisateurs (business, data et tech). A trop penser techno, on finit par en oublier l’essentiel et faire échouer les projets.

Les limites de la stack data moderne

La stack data moderne peine à rendre la data plus accessible aux utilisateurs business

Nous avons vu que chacun s’accordait à penser que la stack data moderne était quelque chose de formidable, même si c’est pour des raisons différentes. Mais interrogez les utilisateurs business, vous n’aurez pas le même son de cloche. Pour eux, la stack data moderne n’a rien de fantastique.

Pour la plupart des gens en fait (je parle des gens agréables, sociaux, du genre à pouvoir passer une soirée sans se disputer sur le formatage SQL), la stack data moderne est une expérience, et souvent…un ensemble d’expériences désagréables :

  • Essayer de comprendre pourquoi la croissance ralentit la veille du conseil d’administration
  • Essayer de mettre tout le monde d’accord sur les revenus trimestriels quand les différents outils & dashboards disent tous des choses différentes.
  • Partager à un client les métriques d’usage de son produit et entendre ce client vous expliquer que sa liste d’utilisateurs actifs inclut des individus qui ont arrêté d’utiliser le produit depuis plus de 6 mois.
  • Recevoir un message Slack du CEO qui vous dit que son rapport d’activité quotidien est encore cassé.
  • Etc.

Pour reprendre l’analogie d’Erik Bernhardsson, fondateur de Modal Lab, si la stack data moderne est un restaurant, toutes les frustrations que l’on vient de décrire sont celles que l’on a lorsque l’on mange un plat sans saveur. Le chef a investi dans l’amélioration des cuisines, mais les clients (les utilisateurs business, mais aussi les analystes data) sont ici pour déguster de bons plats servis par un personnel attentionné dans un cadre agréable.

Tant que vous n’arrivez pas à ce résultat, votre technologie, votre « stack data moderne », si révolutionnaire qu’elle soit, est quelque chose de théorique.

Définition et analyse de la Stack Data Moderne

Vous n’êtes pas certain de comprendre ce que recouvre ce terme ? Dans ce cas, nous vous invitons chaudement à lire notre article introductif à la stack data moderne. Vous y découvrirez ce qui a conduit à cette nouvelle organisation des outils au service d’un meilleur usage de la data et les principales briques constituant la stack data moderne.

La stack data moderne se résume trop souvent à une multiplication des outils

Les utilisateurs business n’arrivent pas à utiliser les données comme il faudrait. Ils sont insatisfaits, frustrés. La première réaction quand quelque chose ne fonctionne pas consiste à multiplier les outils. On crée des cartographies de tous les outils et systèmes à disposition et on essaie de trouver l’endroit où on pourrait venir en caler un nouveau.

Même si chaque outil pris individuellement permet de réaliser les tâches pour lesquelles il est fait de manière plus efficace, fractionner l’écosystème en utilisant des briques de plus en plus petites ne permet pas de résoudre les vrais challenges.

stack data moderne mapping
Représentation d’une stack data moderne. Source : a16z.

Comme l’explique bien Erik Bernhardsson, l’hyperspécialisation nous rend excellents pour couper des oignons et cuire les tartes aux pommes, mais c’est une mauvaise façon de gérer un restaurant.

Non, la stack data moderne ne consiste pas à empiler le plus d’outils possibles. Elle ne doit pas être le prétexte à une prolifération des technos. Prendre cette voie, c’est le plus sûr moyen de créer une stack data qui ne remplit pas sa promesse : aider les utilisateurs à travailler mieux grâce aux données.

Benchmark complet des outils de la Stack Data Moderne

Même si la stack data moderne ne se réduit pas à une combinaison de nouveaux outils (et c’est tout le propos de l’article que vous lisez), on ne peut pas faire l’impasse sur les technologies. On vous a préparé un benchmark complet des outils de la stack data moderne. Type d’outil, origine, modèle économique, réputation sur le marché… chaque solution est présentée dans le détail, dans un beau GSheet facile à exploiter et téléchargeable gratuitement. Bonnes découvertes !

liste outils stack data

La stack data moderne peine à devenir une culture d’entreprise

Lorsque nous réfléchissons aux limites de la stack data moderne telle qu’elle est imaginée et vécue dans bon nombre d’entreprises, c’est le terme de « culture » qui nous vient, cette culture vaguement définie comme une combinaison des compétences que nous avons (ou pas), des structures organisationnelles de nos équipes et à partir de termes flous comme « culture des données », « culture data-driven ».

Ces éléments sont importants, mais il faut bien être conscient qu’une culture data ne s’inculque pas en offrant à ses équipes des manuels ou en organisant des séminaires.

Si les gens ne sont pas enthousiasmés par l’avenir que leur promettent les promoteurs de la stack data moderne, si les gens sont rebutés par le travail à accomplir pour devenir « data-driven », nous ne pouvons pas nous contenter de les inviter à rejoindre le bateau. Il faut réussir à gagner leur enthousiasme. Il faut les convaincre.

Pour cette raison, la stack data moderne comprise comme projet techno n’est pas suffisante. Ce n’est pas de cette manière que vous créerez de l’adhésion. Les entreprises doivent aller plus loin que la stack data moderne et chercher à concevoir une expérience data moderne. Je vous présenterai dans un instant quelques principes directeurs pour construire ce chemin.

Quelques exemples inspirants de stack data efficientes

On dit parfois que les équipes data devraient toujours penser ce qu’elles créaient comme un produit et leurs collègues comme des clients. Si on admet cette idée, quel devrait être ce produit ? A quoi devrait ressembler le chemin qui nous mène d’une question, qui nous fait passer par des technologies, des outils, des collaborations, des échanges pour aboutir à une réponse ? Comment construit-on une stack data moderne conçue comme un produit au service des utilisateurs cibles ?

On n’arrive que rarement à répondre de manière satisfaisante à ces questions.

Ce n’est pas une fatalité. Certaines entreprises ont réussi à trouver des réponses pertinentes.

Airbnb, Uber et Netflix ont construit des stack data intégrées, avec des outils analytics, des outils de reporting, un catalogue de métriques, des catalogues de données et des plateformes ML. Contrairement aux éditeurs des logiciels qu’ils utilisent, les outils qui composent ces stacks data sont au service d’un objectif plus grand qu’eux-mêmes. Les outils sont au service de l’entreprise, et non l’inverse.

Les résultats sont impressionnants :

  • Chez Uber par exemple, les salariés peuvent rechercher une métrique, la visualiser à travers différentes dimensions et passer directement d’une exploration no-code à l’écriture de requêtes, tout cela pendant qu’une IA veille à éviter les redondances.
  • Airbnb a construit un dispositif similaire : un data catalog et un référentiel de métriques sont connectés à un outil d’exploration des données et un IDE SQL.
  • Netflix a créé un workflow pour créer, partager, déployer, planifier et explorer des notebooks qui gèrent tout, des dashboards à la production de modèles.
stack data netflix
La stack data de Netflix, une machine de guerre au service de l’efficience opérationnelle.

Les questions les plus importantes à se poser

Il ne fait aucun doute que ces outils ne sont pas parfaits. Mais ils offrent une fenêtre sur les questions les plus importantes qu’il faut se poser :

  • A quoi ça sert d’utiliser une stack data moderne ?
  • Qu’est-ce qu’une stack data m’apporte de plus concrètement ?
  • Quelle est la meilleure façon pour les gens de répondre à une série de questions, de faire confiance aux réponses et de décider ce qu’il faut faire ensuite ?
  • En quoi pouvons-nous aider les gens qui se préoccupent d’avoir une stack data moderne qui marche, sans se soucier d’où passe la frontière entre un produit et un service ?
  • Qu’est-ce que nous pouvons construire aux gens qui sont dans le restaurant pour qu’ils profitent de leur dîner et n’aient pas à penser à qui prépare les oignons et comment les cuisiniers cuisinent ?

La stack data moderne est décentralisée et cela a un coût

Quelle que soit la définition de la stack data moderne que vous utilisez, presque tout le monde, nous compris, s’accorde à dire qu’elle doit être décentralisée.

Je ne cherche pas ici à vous vendre une approche plus qu’une autre. Mon objectif n’est pas d’entamer une discussion sur les fondements philosophiques de la stack data moderne. Doit-elle être cloud-first, plutôt modulaire ou monolithique, version control ou peer review ? Ce n’est pas le sujet.

Mon point, c’est que la décentralisation qui sous-tend l’approche stack data moderne a un coût. Pourquoi ? Parce que l’architecture se reflète sur l’expérience de ses utilisateurs. Les lignes de faille qui séparent les produits de la stack deviennent des lignes de faille entre les différentes expériences d’utilisation. Il est là le challenge.

Si la stack data moderne est parfois décevante, c’est que loin d’aider les utilisateurs, elle conduit à une fragmentation de l’expérience. La fragmentation des outils aboutit à une fragmentation de l’expérience. C’est ce contre quoi il faut chercher à aller.

Pour trouver la solution, posons-nous cette question : comment une multitude d’entités souveraines et souvent concurrentes peuvent-elles s’unir pour construire quelque chose de cohérent ?

Un petit détour par l’évolution du commerce international

L’histoire du commerce international peut nous aider à trouver la solution. Avant la Première Guerre mondiale, la plupart des accords commerciaux internationaux (traités sur les tarifs et les restrictions) étaient des accords bilatéraux, entre deux pays. Au fur et à mesure que les pays européens se sont industrialisés, un réseau d’accords bilatéraux a vu le jour, centré sur les principaux partenaires commerciaux et souvent piloté par eux : dans le cas européen, la Grande-Bretagne et la France.

En 1947, après deux guerres mondiales, la crise de 29 et la mode pour le protectionnisme, 23 des principaux partenaires commerciaux du monde ont signé l’Accord général sur les tarifs douaniers : le GATT. En raison du poids des membres fondateurs, l’accord n’a cessé d’attirer à lui de nouveaux signataires dans la deuxième moitié du XXème siècle. Le GATT a finalement été remplacé en 1995 par l’Organisation mondiale du commerce, l’OMC. Aujourd’hui, l’OMC a 164 membres qui représentent 98% du commerce international.

Bien que de nombreux pays négocient encore des accords commerciaux bilatéraux ou régionaux, le commerce mondial est principalement régi par les traités mondiaux de l’OMC plutôt que par un réseau complexe de milliers d’accords bilatéraux.

La stack data moderne doit accomplir la même évolution que celle du commerce international

Encore aujourd’hui, la stack data, ce sont des centaines d’Etats membres en orbite autour de grosses plateformes comme Snowflake, Fivetran, dbt et quelques autres. Les relations entre les éditeurs sont gérées par des intégrations bilatérales qui permettent de combler les fossés entre les outils. Les intégrations bilatérales sont à la stack data ce que les accords bilatéraux sont au commerce international.

Dans des écosystèmes aussi complexes que ceux du commerce international ou des technologies data, les intégrations bilatérales montrent rapidement leurs limites. L’approche n’est pas scalable. On aboutit à un patchwork désordonné d’accords ou d’intégrations qui ne peut que se désagréger (et qui se désagrége) avec le temps. Le GATT et l’OMC en sont la preuve.

outils data prep connexion donnees exemple octolis
Toutes les solutions de Data Management proposent des connecteurs, et Octolis n’y déroge pas, évidemment. Mais construire une stack data moderne ne se réduit pas à faire des ponts entre chacune de vos solutions. Octolis propose un outil tout-en-un qui vous permet de rationaliser vos intégrations et de centraliser la préparation des données.

Construits à partir des plus grandes économies du monde, ces accords ont créé une vision commune et des principes directeurs de la politique commerciale qui, même s’ls ne sont pas toujours juridiquement contraignants, ont contribué à faire pencher le monde dans une direction commune.

La stack data moderne doit accomplir la même évolution. Nous allons essayer de synthétiser les principes directeurs qui doivent la gouverner.

Différentes approches pour construire une Stack Data Moderne

La stack data, c’est l’ensemble des outils gravitant autour du data warehouse qui va vous permettre de valoriser vos données et de pleinement les exploiter dans vos applicatifs métier. Sachez qu’il existe plusieurs manières de construire une stack data moderne, plusieurs approches possibles : l’approche best of breed, l’approche agence, l’approche tout-en-un. Pour en savoir plus, découvrez notre article sur le sujet.

Principes directeurs pour une expérience data moderne

La stack data moderne fournit une roadmap SI. Pour que la stack data moderne se traduise pour les utilisateurs par une expérience data moderne, quelques principes directeurs doivent être suivis. Voici ceux auxquels je crois.

#1 Les utilisateurs business doivent pouvoir faire leur métier sans devoir se transformer en data analyst

On a beaucoup parlé de démocratisation des données. C’est une expression à la mode et les objectifs sont louables : permettre à chaque utilisateur de manipuler les données en autonomie et ainsi libérer les équipes data des tâches ingrates qui leur sont traditionnellement confiées pour qu’elles puissent se concentrer sur des projets à forte valeur ajoutée.

La démocratisation des données a eu tendance à devenir une prescription : « Devenez tous analystes grâce aux outils no code ! ». Ce projet a largement échoué comme on peut le constater aujourd’hui avec le recul que l’on a.

L’expérience de la stack data moderne que nous appelons de nos vœux ne consiste pas à mettre les données dans les mains des utilisateurs pour leur laisser le soin de les analyser. Ce que nous voulons, c’est intégrer les données dans les systèmes opérationnels où elles se trouvent déjà pour libérer la productivité de leurs utilisateurs. Les données doivent aider les gens à mieux faire leur travail, plutôt que de leur ajouter un nouveau travail à faire.

#2 La data science et la BI doivent fusionner

On a pris l’habitude de penser que les analystes data devaient travailler dans des outils techniques avancés et que tous les autres collaborateurs devaient utiliser des outils de BI user-friendly. C’est faux. Les outils de BI drag & drop peuvent être très utiles pour les data scientists chevronnés et tout le monde peut devenir un consommateur d’analyses avancées.

powerbi interface
Les data scientists ont aussi vocation à utiliser des outils de Data Viz (ici, PowerBI).

Dans une expérience data moderne, les utilisateurs doivent pouvoir passer sans problème de la visualisation d’un KPI provenant d’un catalogue de données sous contrôle à l’exploration de ce KPI à l’aide de groupements et de filtres, puis à son incorporation dans des analyses techniques approfondies. On doit pouvoir visualiser sur la même interface hommes machines des KPIs intégrés à des tableaux de bord et explorer les données qui alimentent ces KPIs pour approfondir le niveau d’analyse.

Les personnes qui consomment des données ne devraient jamais avoir à sortir d’un outil pour approfondir leurs analyses. Si la stack data moderne nous parle d’intégration des données dans une architecture tech, l’expérience data moderne nous parle d’intégration des expériences.

#3 Les utilisateurs doivent avoir confiance dans les données qu’ils ont sous les yeux

« Est-ce que ces données sont fiables ? » est l’une des questions les plus frustrantes et l’une des plus courantes que les gens posent à propos des données. Aujourd’hui, la réponse à cette question dépend essentiellement de signaux implicites :

  • Qui a construit ces résultats ?
  • Est-ce que ça a été modifié récemment ?
  • Est-ce que ça paraît crédible ?

Ces questions nous conduisent à des recherches interminables. On utilise plusieurs outils pour confirmer les résultats. On perd du temps. Voire pire : on n’utilise pas les données, faute de confiance.

Pour que les utilisateurs aient confiance dans les données qu’ils visualisent et qu’ils manipulent, il faut que chaque set de données indique de lui-même si les processus amont qui l’ont constitué sont corrects ou non, à jour ou non, en un mot : fiables.

Dans une expérience data moderne, on passe du temps à débattre sur les actions à prendre à cause d’un chiffre lu sur un tableau de bord plutôt qu’à vérifier si ce chiffre est juste ou non.

#4 Ne pas oublier ce que l’on a appris

Les informations que nous présentent les outils de BI sont éphémères. Elles disparaissent au fil des mises à jour des données et des mises à jour du design des reportings. Les données récentes chassent les données anciennes. Les analyses ad hoc sont notées à la va-vite et sans méthode. Les conversations se perdent dans les flux Slack.

Dans une expérience data moderne, ce que les données nous apprennent fait l’objet d’un enregistrement, d’une historisation. On ne perd rien des analyses que l’on a faites. On garde la mémoire des enseignements. C’est le plus sûr moyen d’avancer et de ne pas refaire les erreurs du passé.

#5 Les métriques doivent être gérées à un niveau global

En général, les métriques sont pilotées à un niveau local dans les outils de BI. Chaque équipe gère à son niveau ses KPIs, leur mode de calcul, les ratios de synthèse, l’évolution du dispositif de pilotage. Dans une stack data décentralisée et modulaire, on aboutit rapidement à un patchwork de calculs dupliqués et souvent contradictoires.

Une expérience data moderne suppose de la coordination. La gestion et l’évolution des métriques doivent être centralisées. Si les règles de calcul d’un KPI change, ce changement doit être diffusé partout : dans les tableaux de bord de BI, dans les notebooks Python, dans les pipelines ML opérationnels.

#6 Il ne faut pas communiquer uniquement par tableaux

A force de vous plonger dans les données, vous ne finissez par ne plus voir que des structures relationnelles : des tables, des lignes, des colonnes, des jointures. Et pour cause, la plupart des outils data présentent les données sous cette forme. Et c’est sous cette forme que les data analysts se confrontent aux donnés.

Mais pour tous les autres utilisateurs, les données se présentent de manière plus protéiforme, sous forme de métriques dans une série temporelle, de représentations abstraites dans des domaines métiers complexes, de comptes rendus écrits…Les utilisateurs doivent pouvoir interroger et explorer les données de différentes manières, pas uniquement dans des tables et des colonnes.

#7 Il faut construire un pont entre le passé et le futur

Il est tentant de concevoir la stack data moderne comme une discontinuité, le saut d’un passé que l’on veut oublier vers un avenir radieux. Construire une stack data moderne, pour beaucoup, c’est faire table rase du passé. C’est une conception fausse. Ce n’est pas une rupture, c’est une transition. Une transition qui ne mettra pas un terme à tous les problèmes et tous les freins que peut rencontrer un utilisateur de données. Dites-vous bien que vous continuerez à utiliser Excel ! Dans une expérience data moderne, il faut savoir négocier avec cette réalité et admettre qu’une partie du passé se conserve.

#8 L’expérience data moderne est création continue d’imprévisibles nouveautés

Les analyses ne sont pas prévisibles. Ce n’est pas un processus linéaire qui peut être anticipé. On sait d’où l’on part : une question. On ne sait pas où l’on va. Une question en appelle de nouvelles. De la même manière, une infrastructure data est un système évolutif qui se transforme à mesure que les enjeux business et que les sources de données changent.

Les analyses construites à partir de l’infrastructure data évoluent et font évoluer le système qui leur sert de base. L’expérience data moderne répond à la logique des systèmes émergents. Elle démarre petite, grandit, grossit, conquiert de nouveaux territoires. Les expériences et les systèmes rigides ont toujours un coût à la fin.

#9 L’expérience data moderne casse les murs

Les stacks data ont pour habitude de créer des murs et les différents utilisateurs collaborent entre eux en se jetant des choses par-dessus les murs érigés : les ingénieurs data jettent des pipelines aux analysts, les développeurs BI jettent des rapports aux utilisateurs métiers, les analystes jettent des résultats à qui veut bien les recevoir. Le caractère modulaire des stacks data modernes est une tentation à créer encore plus de murs.

De la même manière que dbt a cassé un mur, une expérience data moderne doit briser les autres en encourageant la collaboration et le partage entre les équipes business, data et tech.

Il y aurait beaucoup de choses à dire sur chacun de ces sujets. Ce sont des sujets dont il faut parler, ce sont des conversations qu’il faut avoir. Si l’on ne pense pas l’expérience data moderne qui doit accompagner la stack data moderne, on peut réussir à construire une belle architecture d’outils, mais la promesse à laquelle on croyait (la révolution technologique, la transformation du fonctionnement de l’entreprise) ne se réalisera pas.

Data viz : Les meilleurs outils de visualisation des données en 2022

Adopter un outil de data visualisation oui mais lequel ? Quels sont les types d’outils à ma disposition ? Existe-t-il des outils gratuits pour initier cette démarche avant d’aller plus loin ? En quoi un outil de « data viz » est-il différent d’un outil de business intelligence ? Sur quels critères choisir mon outil de data viz ?

Voici les questions auxquelles nous avons tâché de répondre dans cet article, bonne lecture 🙂

Quels sont les différents types d’outils de visualisation de données ?

Comprendre la différence entre data visualisation et Business Intelligence

Face à la complexité du traitement de la donnée, les entreprises ont de plus en plus recours à des outils permettant de transformer cette ressource en leviers d’actions utilisables par les différentes équipes à des fins stratégiques.

Il existe pour cela deux catégories principales d’outils : les outils de data visualisation et les outils de business intelligence (BI).

On définit la visualisation de données comme étant le processus permettant de transformer d’importants volumes de données dans un contexte visuel. La visualisation des données consiste à générer des éléments visuels à partir des données. Il peut s’agir de tableaux, de graphiques, de diagrammes, d’images, de modèles, de films, etc.

Exemple de dashboard animé réalisé avec Tableau Public

Les outils et applications de Business Intelligence quant à eux sont utilisés pour analyser les données des opérations commerciales et transformer les données brutes en informations significatives, utiles et exploitables.

La première étape de toute forme de Business Intelligence consiste à collecter des données brutes ou des données historiques. Ensuite, les outils de Business Intelligence aident à la visualisation, à la création de rapports et aux fonctions d’analyse qui sont utilisées pour interpréter de grands volumes de données à partir des données brutes.

dashobard power bi

Exemple de dashboard de BI réalisé avec Power BI

CaractéristiquesData visualisationBusiness Intelligence
ObjectifFaciliter la compréhension des conclusions d’une analyse de données Transformer des données brutes en leviers d’actions pour l’entreprise afin d’orienter les prises de décisions
DéfinitionReprésentation graphique des élément clefs de l’analyse de donnéesEnsemble des pratiques de collecte, d’analyse et de présentation de données visant à orienter la prise de décisions
Expertise requiseLa manipulation de ces outils est plus facile que pour les softwares d’analyse statistique traditionnels Ce processus nécessite une variété de compétences, de la collecte de données à la prise de décisions
Type d'usagePrésentation de l’information en temps réel ou après le traitement des donnéesPrise de décision en direct ou après analyse
Types de donnéesTables de données structurées Jeux de données reliés entre eux concernant l'activité de l'entreprise
FocusCréer des rapports graphiques clairsDonner des indications business et éclairer la prise de décisions
Utilisé pourReprésenter de façon la plus intuitive les indicateurs clefs de l’activitéDéfinir et calculer les principaux indicateurs clefs
Caractéristiques principalesReprésentation intuitive de l’information Lecture facile et rapide de l’information permettant de mieux la mémoriser Permet d’interagir avec la donnée Permet d’analyser l’activité de l’entreprise et de suivre les principaux indicateurs (KPI) Aide les dirigeants et les managers à prendre des décisions éclairées par l’analyse des performances passées

Ces deux types d’outils sont donc essentiels dans un contexte où l’usage efficace de la data est clef pour faire face à la concurrence. Les outils de BI permettent de prendre des décisions étayées par l’analyse des performances passées quand les outils de data visualisation visent à représenter clairement ces analyses.

Outils de data visualisation gratuits et open source

Il existe une multitude d’outils de visualisation de données, de qualité parfois inégale, dont certains sont open source – le code est accessible publiquement – et d’autres gratuits. Le choix du type d’application a une importance certaine sur la capacité de l’entreprise à traiter les données de façon pertinente et efficace.

Open source

Un software est dit open source lorsque son code source est accessible publiquement, souvent sur des plateformes dédiées telles que Git Hub. Ainsi chaque développeur peut lire, copier et éditer le code de l’application et s’en servir librement pour un usage personnel ou professionnel.

L’accès au code lorsque l’on utilise une application open source est un atout indéniable qui offre la possibilité de personnaliser le software pour le rendre parfaitement adéquat aux besoins de l’entreprise, sans avoir besoin de développer intégralement un outil en interne. Une application open source permet donc de bénéficier d’un gain de temps et d’une réduction des coûts de développement sans souffrir pour autant d’un manque de flexibilité.

Gratuit

On trouve des applications d’une complexité très variable parmi le vaste catalogue des outils de data visualisation, dont les plus complets requièrent du temps et des efforts avant d’être complètement maîtrisés. Il existe cependant des outils gratuits, plus légers et plus accessibles qui nécessitent un temps de prise en main bien moindre.

La facilité d’usage de ces applications allant de pair avec la facilité d’implémentation au sein des équipes rend le recours à ces outils particulièrement intéressant pour des personnes peu formées au code et ayant besoin de mettre en place une solution rapidement.

Top 50 des dashboards Ecommerce sur Google Data Studio

Vous souhaitez mettre en place des dashboards de data viz pour suivre de plus près les performances de votre activité e-commerce ? Découvrez et testez les meilleurs dashboards Data Studio que nous avons sélectionnés pour vous.

liste outils stack data

Qu’attendre d’un outil de visualisation de données ?

Caractéristiques principales

Les outils de visualisation de données sont essentiels dans le traitement de la data, mais pour que leur usage soit pertinent il est nécessaire qu’ils répondent à certaines caractéristiques afin de faciliter la compréhension qu’auront les utilisateurs de l’ensemble des données.

CaractéristiquesAttentes
IntégrabilitéLa possibilité d’intégrer les représentations graphiques des données dans les applications déjà implémentées afin d’en faciliter l’accès.
Possibilités d'actionLes représentations graphiques doivent être porteuses de sens et offrir des conclusions qui pourront être mises en place au sein de l’activité.
Performance L’usage régulier d’un outil de data visualisation dépend de la vitesse à laquelle il va fournir des conclusions à l’utilisateur, qui risque de s’en détourner si le temps d’attente est trop important. L’usage des GPU par certaines applications permet de réduire les temps de calculs et de latence, et offre ainsi une meilleur expérience pour l’utilisateur.
Infrastructure dynamiqueLe recours à des services cloud dédiés pour la gestion du big data permet faciliter la gestion de jeux de données volumineux et de réduire le cout de développement et d’implémentation pour les outils de data visualisation.
Exploration interactive L’outil doit permettre aux utilisateurs d’interagir facilement avec leurs jeux de données (par le biais de filtres ou de groupement par exemple) afin qu’ils puissent rapidement valider ou vérifier leurs hypothèses.
CollaborationLa possibilité pour plusieurs utilisateurs de travailler simultanément sur une même analyse, évitant ainsi le recours à l’envoi de fichiers statiques et permettant un gain de temps non négligeable.
Support pour le streaming de data Un support pour le streaming de data permet d’utiliser des sources de données variées apportant un volume de données plus important, tels que les réseaux sociaux, les applications mobiles ou l’internet des objets (IoT).
Intégration d’intelligence artificielle L’utilisation d’intelligence artificielle permet de simplifier, d’accélérer et d’approfondir les analyses, allant même jusqu’à fournir des prédictions. Il faut cependant s’assurer que cela n’affecte pas négativement les performances.
Management des métadonnées intégré Une bonne gestion des métadonnées permettra aux utilisateurs métiers d’avoir une compréhension claire des données qu’ils manipulent et ainsi de préciser leur analyses.
Accès simplifié en libre-service La possibilité de créer rapidement un modèle pour tester des hypothèses sans avoir besoin de recourir à un développeur.

Principaux critères de différenciation

Lorsque l’on compare différents outils de data visualisation, il faut accorder une attention particulière à certaines caractéristiques qui vont véritablement différencier les outils entre eux.

  • Capacité à s’adapter au besoin business :

Lors du choix d’un outil il est nécessaire de s’interroger d’abord sur la façon dont la data visualisation pourra répondre aux besoins de l’entreprise afin de s’assurer que le software soit capable de faire face à tous les cas d’usage.

Une bonne application permettra d’ajouter des extensions ou de créer des graphiques customisés qui s’adapteront parfaitement aux besoins.

  • Facilité d’apprentissage :

En fonction des profils (tech, métiers…) concernés par l’usage de l’application, il faudra prêter une attention particulière à la facilité de prise en main de l’outil.

Certains outils ne requièrent pas d’expérience particulière, d’autres seront plus complexes mais proches d’outils existants tel qu’Excel, et d’autres enfin nécessiteront le recours au code.

  • Captation et stockage des données :

Certains outils permettent de se connecter facilement à un grand nombre de bases de données assurant ainsi une implémentation facile dans le SI. Il faut aussi considérer la capacité de l’outil à transformer ces données pour proposer une analyse pertinente.

  • Analyse et interprétation :

En fonction du software, les filtres, les groupements et les autres moyens d’analyses de données seront plus ou moins puissants et nombreux. Cela aura un effet direct sur la qualité du traitement des données et son interprétation.

  • Prix :

Le prix est naturellement un élément différenciant majeur réparti sur une fourchette particulièrement large allant de la gratuité totale à des abonnements de plus de 100€ par mois et par utilisateur. Il est toutefois pertinent de s’intéresser aux packages que proposent les outils les plus chers, dont les versions basiques seront parfois suffisantes.

  • Communauté d’utilisateurs :

Les problématiques auxquelles la documentation de l’outil n’apporte pas de réponse sont récurrentes. La possibilité de se tourner vers d’autres utilisateurs plus expérimentés est alors un atout considérable. Ainsi, certains outils comme Power Bi ou Tableau bénéficient d’une importante communauté active sur divers forums tels que Stackoverflow ou les forums dédiés des applications où il sera possible de trouver de l’aide et bien souvent une solution.

stackoverflow-powerbi

A titre d’indication, on trouve plus de 30 500 résultats sur stackoverflow en cherchant le mot-clef « powerbi » concernant des sujets aussi variés que l’utilisation d’une API Rest sur Power BI desktop ou l’intégration d’image dans un reporting Power BI.

Meilleurs outils de data visualisation

En considérant les points précédents, nous avons sélectionné les meilleurs outils de data visualisation : ceux que nous préférons et que nos clients utilisent le plus.

NomDescriptionPricing
Fusion ChartsFusionCharts is another JavaScript-based option for creating web and mobile dashboards. It includes over 150 chart types and 1,000 map types. It can integrate with popular JS frameworks (including React, jQuery, React, Ember, and Angular) as well as with server-side programming languages (including PHP, Java, Django, and Ruby on Rails).From 499$ per month
GrafanaGrafana is open-source visualization software that lets users create dynamic dashboards and other visualizations. It supports mixed data sources, annotations, and customizable alert functions, and it can be extended via hundreds of available plugins. That makes it one of the most powerful visualization tools available.Free version of from 8$ per month
SigmajsSigmajs is a single-purpose visualization tool for creating network graphs. It’s highly customizable but does require some basic JavaScript knowledge in order to use. Graphs created are embeddable, interactive, and responsive.Free
PolymapsPolymaps is a dedicated JavaScript library for mapping. The outputs are dynamic, responsive maps in a variety of styles, from image overlays to symbol maps to density maps. It uses SVG to create the images, so designers can use CSS to customize the visuals of their maps.Free
Chart jsChart.js is a simple but flexible JavaScript charting library. It’s open source, provides a good variety of chart types (eight total), and allows for animation and interaction.Free

Meilleurs outils BI

Nous avons sélectionné les meilleurs outils de data visualisation : ceux que nous préférons et que nos clients utilisent le plus.

NameDescriptionPricing
MicrosoftpowerBIMicrosoft Power BI is one of the leading business intelligence solutions on the market. It allows you to connect any data source to produce reporting and data visualisation. Power BI also offers advanced data preparation capabilities.From $4,995 per month
QlikviewThis is a much older product than Power BI because it had launched way back in 1993, even before the world was exposed to data-driven decision makings. This product also aims at providing data insights from large data sets.From $1350 to $1500
MetabaseMetabase is a business intelligence tool that is an open-source and easy method to generate dashboards and charts. It also solves ad-hoc queries without implying SQL and views the elaborated data as rows in the database. The user can configure it in five minutes and give him a separate platform to answer the queries.From $85/month
SisenseSisense is a Business Intelligence Software & Analytics platform that helps you simplify complex data and create analytic apps.On plan
LookerLooker is a BI tool that helps you analyze and share real-time analytics. It also combines all the data and provides an overview.On plan

Meilleurs outils de data visualisation gratuits et en open source

Les considérations économiques poussent souvent à choisir un outil gratuit. Ce choix sensé au premier abord peut avoir des conséquences négatives s’il n’est pas bien réfléchi. En effet, implémenter un outil inadapté affectera directement la qualité des analyses et imposera de changer d’outil peu de temps après. Nous conseillons donc de s’orienter vers notre sélection d’applications.

NomDescriptionType
RedashRedash is a cloud-based and open-source data visualization and analytics tool. It runs on an SQL server and sports an online SQL editor. The tool has both hosted and open-source/self-hosted versions. Open Source
d3jsAlso known simply as D3, D3.js is an open-source JavaScript library used for visualizing and analyzing data. The acronym ‘D3’ stands for ‘data-driven documents’. Thus, with a strong emphasis on the web standards of HTML, SVG, and CSS, D3 focuses on efficient data-based manipulation of documents.Open Source
Rapid minerRapidMiner is a suite of software programs on the cloud. The entire suite is used for shoring up a sequential data analytics environment. In-depth data visualization is only a part of the suite.Open Source
Raw GraphsBuilt on D3.js, RAWGraphs makes data sourcing and visualization extremely easy. Here are other features and functionalities of this tool that merits it a place among the best open-source data visualization tools of today.Open Source
KnimeKNIME is one of the best open-source data visualization software out there right now. The interface is considerably easy to master. It also presents its data output in a way that anyone with basic knowledge of charts and graphs can understand.Open Source
Tableau PublicTableau Prep est la solution de data preparation proposée par Tableau, l’un des principaux concurrents de Power BI. Beaucoup plus abordable que Power BI, le module Tableau Prep vous permet de consolider, dédupliquer et nettoyer les données que vous utiliserez pour faire vos analyses dans Tableau. Free
Google StudioGoogle Data Studio is a great, free data visualization tool that lets you build interactive dashboards, and customized, beautiful reporting.Free
InfogramInfogram is a fully-featured drag-and-drop visualization tool that allows even non-designers to create effective visualizations of data for marketing reports, infographics, social media posts, maps, dashboards, and more.Free
DatawrapperDatawrapper was created specifically for adding charts and maps to news stories. The charts and maps created are interactive and made for embedding on news websites. Their data sources are limited, though, with the primary method being copying and pasting data into the tool.Free
Flourish PublicFlourish Public enables immersive storytelling rather than more traditional ways of visualizing as tables, diagrams, and dashboards. Unlike Tableau Public, Flourish does not require a desktop edition.Free

Construire une segmentation RFM – Le Guide complet

Si vous n’avez toujours pas mis en place de segmentation RFM aujourd’hui, vous n’avez pas raté votre vie mais par contre vous passez à côté d’une belle opportunité de développer votre activité. Ce message s’adresse tout particulièrement aux Retailers 🙂

La segmentation RFM consiste à segmenter vos clients en fonction de leur comportement d’achat, avec pour finalité de construire une stratégie marketing plus ciblée, plus intelligente, plus ROIste, plus en phase avec les besoins, attentes et propensions de vos clients. A la clé, une meilleure rétention client, une optimisation de la lifetime value et des campagnes d’acquisition plus efficaces.

Si vous pensez comme nous qu’il est plus logique d’inviter vos meilleurs clients à rejoindre votre programme de fidélité plutôt que de leur envoyer des promotions tous les mois, alors vous comprendrez rapidement la logique du modèle RFM. Une logique simple, facile et efficace.

Dans ce guide complet, on vous explique ce qu’est la segmentation RFM, les résultats que ça permet d’atteindre et surtout comment construire une segmentation RFM étape par étape (avec un cas pratique).

RFM : Définition

Qu’est-ce qu’une Segmentation RFM ?

La segmentation RFM est un type de segmentation qui permet d’analyser le comportement d’achat de vos clients et de les segmenter à partir de trois variables : Récence (R), Fréquence (F) et Montant (M).

La segmentation RFM est simple à mettre en place dans la mesure où elles se basent sur des données que vous avez forcément dans votre système d’information, à savoir les données transactionnelles, l’historique d’achat de vos clients stocké dans votre système de caisse et/ou votre solution ecommerce.

Le RFM est une technique de segmentation ancienne. Elle était utilisée dans les années 1960 par les entreprises de VAD pour réduire la taille des catalogues papiers : par exemple, pour n’envoyer que les produits les plus chers aux meilleurs clients :). Depuis les années 1960, les cas d’usage se sont multipliés.

La segmentation RFM reste l’une des techniques les plus intéressantes pour segmenter les clients dans le Retail et l’Ecommerce.

Son utilisation est pourtant loin d’être généralisée et c’est vraiment dommage. Si nous réussissons à convaincre des retailers et des ecommerçants de se lancer dans la segmentation RFM, alors cet article aura atteint son but.

10 exemples et méthodes de segmentation client

La segmentation client peut prendre des formes différentes (dont la segmentation RFM) mais consiste toujours à diviser les clients en groupes homogènes appelés « segments ». Si les cas d’usage de la segmentation sont multiples, le principal consiste à mettre en place des actions spécifiques pour chaque segment. La segmentation rend possible un marketing ciblé. Pour élargir vos horizons, nous vous invitons à découvrir 10 exemples et méthodes de segmentation client.

Récence, Fréquence, Montant

La segmentation RFM se construit à partir de 3 métriques : Récence, Fréquence, Montant.

segmentation rfm tableau synthese
Source : clevertap.com

R pour Récence

La récence désigne le temps écoulé depuis le dernier achat. Elle est exprimée en nombre de jours. Une récence de 8 par exemple signifie que le dernier achat remonte à 8 jours. On dira que la récence a une valeur de 8.

Pourquoi utiliser cette variable ? La logique est simple : plus un client a acheté récemment, plus il y a de chances qu’il achète de nouveau chez vous. A l’inverse, un client qui n’achète plus depuis longtemps a peu de chances de repasser commande. Toutes les variables utilisées dans le modèle RFM visent à mesurer le niveau d’engagement client.

Il est important de prendre en compte le contexte de votre activité pour analyser correctement cette variable. Les cycles d’achat sont différents d’un secteur à l’autre. L’exemple souvent cité est celui du secteur automobile, où les périodes interachats sont beaucoup plus longues que dans le secteur du prêt-à-porter par exemple.

F pour Fréquence

La fréquence est la variable qui indique le nombre de commandes passées sur une période donnée. Elle permet d’identifier les clients les plus engagés et les plus loyaux.

Si vous choisissez de prendre l’année comme période de référence et que votre client a acheté 9 fois au cours de l’année écoulée, la fréquence est égale à 9.

Là encore, l’interprétation de cette variable doit prendre en compte les caractéristiques de votre secteur d’activité. Le choix de la période de référence doit aussi s’appuyer sur votre contexte business. On choisit généralement l’année, le trimestre ou le mois.

M pour Montant

Le montant désigne le montant des commandes passées par le client au cours de la période de référence. Il s’exprime en euros.

Cette variable permet notamment de distinguer les clients dépensiers des dénicheurs de bonnes affaires. Un client qui a passé 10 commandes de 10 euros n’a pas le même profil d’acheteur qu’un client qui a passé une commande 100 euros, mais si au final le chiffre d’affaires généré est le même.

Top 50 des dashboards ecommerce Google Data Studio

Data Studio est un outil facile d’utilisation et gratuit pour construire des reportings et des tableaux de bord à partir de vos données. Nous avons sélectionné pour vous les 50 meilleurs modèles de dashboards ecommerce pour piloter votre performance dans tous ses aspects. A lire ne serait-ce que pour évaluer la richesse de cet outil de « DataViz ».

L’importance du RFM dans le Retail

Se concentrer sur les clients qui ont le plus de valeur

Si on applique le principe de Pareto au modèle RFM, alors 80% de vos revenus proviennent de 20% de vos clients – vos meilleurs clients. Cette proportion se vérifie très souvent !

Vous avez intérêt à focaliser vos efforts sur vos meilleurs clients. Cela vous permettra :

  • D’augmenter le revenu par client de vos meilleurs clients.
  • De mieux maîtriser vos coûts marketing.

La segmentation RFM permet d’identifier de manière simple qui sont vos meilleurs clients.

Vos meilleurs clients sont ceux qui achètent le plus fréquemment, qui génèrent le plus de chiffre d’affaires et qui ont acheté récemment. Autrement dit, ce sont les clients qui ont les meilleurs scores R, F et M. Nosu reviendrons en détail tout à l’heure sur la signification des scores, mais avoir un très bon score R, c’est tout simplement faire partie des clients qui ont acheté le plus récemment. Idem pour F et M.

Maximiser la rétention

Acquérir des clients coûte plus cher que de fidéliser ses clients actuels. On a déjà dû vous le répéter 100 fois, mais c’est vrai !

Ce n’est pas pour rien que les entreprises multiplient leurs efforts pour améliorer la rétention des clients, que cela passe par la mise en place d’un programme de fidélité ou la construction d’un dialogue clients plus riche et plus ciblé.

Le modèle RFM peut vous aider à :

  • Identifier qui sont vos meilleurs clients.
  • Analyser les indicateurs clés de performance pour chaque segment RFM afin de savoir où en est votre entreprise par rapport à vos objectifs de rétention.
  • Faire une analyse qualitative de vos meilleurs clients pour identifier les actions les plus efficaces pour améliorer leur fidélité.
  • Créer un marketing différencié pour chaque segment RFM : meilleurs clients, clients occasionnels, clients à potentiel, clients à risque d’attrition, etc.
  • Améliorer vos campagnes d’acquisition en ciblant des audiences partageant les mêmes caractéristiques que vos meilleurs clients.

Bref, le modèle RFM est très pertinent pour construire un marketing relationnel ciblé dans le Retail. Et, croyez-nous, c’est la meilleure manière de retenir et fidéliser vos clients.

Segmenter sa base client à partir d’un score RFM

Le modèle RFM permet de segmenter sa base clients en créant des segments de clients construits sur la base des trois variables R, F et M.

  • Les meilleurs clients. Ils ont les meilleurs scores en R, en F et en M. Leur dernier achat est très récent, ils achètent souvent et pour de gros montants. Ils ont certainement souscrit votre programme de fidélité si vous en avez un 🙂
  • Les dépensiers. Ce sont les clients qui ont un excellent score M, sans être au top sur les deux autres variables R et F. Ils achètent pour de gros montants, mais moins fréquemment que les meilleurs clients.
  • Les clients fidèles. Ce sont les clients qui ont un excellent score F. Ils ont une très bonne fréquence d’achat, mais ont un panier moyen moins élevé que celui des dépensiers.
  • Les clients à risque. Ce sont d’anciens bons clients qui ont aujourd’hui un mauvais score R et un score F. Ils n’ont pas acheté depuis longtemps.
  • …/…

Voilà 4 exemples de segments que vous pouvez construire sur la base de l’analyse des scores RFM. Dans la pratique, les entreprises utilisent une dizaine de segments RFM, parfois une quinzaine.

Voici à titre d’exemples les segments RFM utilisés par Octolis. Les chiffres désignent les scores. Les Champions, par exemple, ont un score Récence et un score Fréquence*Montant de 5 ou 6 (sur une échelle de 6).

liste segments rfm octolis

Comme vous pouvez le constater, nous avons fusionné Fréquence et Montant, ce qui est classique dans nos univers métier.

Mettre en place une segmentation RFM pas à pas

Nous allons maintenant vous expliquer étape par étape comment construire un modèle RFM et la segmentation qui va avec.

Les prérequis pour construire un modèle RFM

Pour construire un modèle RFM, vous devez être capable d’identifier vos clients. C’est la base. Vous ne pouvez savoir qu’un client est un de vos meilleurs clients si vous ne connaissez pas d’abord l’identité de ce client. Logique.

Vous avez donc besoin d’identifiants clients. Cela peut être un customer ID, une adresse email, un nom + prénom, un téléphone…Peu importe, il faut une information, une donnée qui vous permette d’identifier vos clients.

Ensuite, vous avez besoin des données transactionnelles sur vos clients. Plus précisément, vous devez connaître pour chaque client :

  • La date de dernier achat. Cette donnée vous permettra de construire le score Récence.
  • Le nombre de transactions réalisé sur la période de référence (le mois, le trimestre ou l’année). Cette information vous permettra de construire le score Fréquence.
  • Le montant dépensé sur la période, qui vous permettra de construire le score M. Il s’agit du montant total des achats par client sur la période de référence.

Toutes ces informations sont accessibles dans votre système de caisse et/ou dans votre solution ecommerce. Vous avez donc en principe tout à disposition. C’est l’une des forces de la segmentation RFM.

Construire le tableau des valeurs RFM

Avec ces informations, vous allez pouvoir construire un tableau de ce type :

Id ClientRécence (jour)Fréquence (nombre)Montant (total)
146540
2611940
346135
423365
5154179
632256
773140
8501950
934152630
10105191
1138845
121101510
1327354
1418240
155125

Ce tableau contient les valeurs R, F et M pour chaque client.

Rappelons que la récence est exprimée en nombre de jours depuis le dernier achat, la fréquence en nombre de commandes réalisées sur la période, et le montant en devise, ici l’euro.

Des valeurs RFM aux scores R, F et M

Une valeur, c’est une donnée brute. Un score, c’est une évaluation : c’est bien ou c’est pas bien. Est-ce que 500 euros de montant (la valeur) est bien ou pas ? Si c’est bien, le score sera élevé.

A partir des valeurs RFM extraites de votre système d’information, vous allez pouvoir construire un score pour chacune des trois variables :

  • Un score R
  • Un score F
  • Un score M

Le score est souvent calculé sur une échelle de 1 et 5. 1 désigne le score le plus bas, 5 le score le plus haut. Par exemple, un client qui n’a pas acheté sur la période a un score F de 1 et un score M de 1.

Les scores sont généralement calculés de manière relative. Si vous utilisez l’échelle classique de 1 à 5, le score de 5 est attribué aux 20% des clients qui ont la meilleure valeur R. Le score 1 est attribué aux 20% des clients qui ont la moins bonne valeur R.

Mais vous pouvez ajouter plus de granularité en adoptant une échelle plus large, de 1 à 6, de 1 à 7, voire de 1 à 10. Si vous choisissez de répartir les scores sur une échelle de 1 à 10, vous attribuerez un score de 10 aux 10% meilleurs clients.

Mais dans l’exemple qui suit, pour que ce soit plus simple à comprendre, nous avons choisi d’utiliser une échelle de 1 à 5.

Vous pouvez donc calculer chaque score séparément. Par exemple, voici un exemple de tableau pour le calcul du score R :

ID ClientRécenceRangScore R
12115
11325
1435
15554
2654
7764
101073
51583
141893
423102
1327112
632122
932131
346141
850151

On utilise ici un scoring relatif. Il y a 15 clients et une échelle de 1 à 5. Donc 3 clients par score. Les clients sont classés par score décroissant. Dans cet exemple, les meilleurs clients (score de 5) sont les clients 12, 11 et 1.

Vous pouvez faire la même démarche pour calculer les scores F et M.

ID ClientFréquenceScore F
9155
2115
12105
1184
164
1054
543
1333
733
432
1422
622
1511
811
311
ID ClientMontantScore M
926305
1215105
89505
29404
118454
15404
101913
51793
71403
4652
6562
13542
14401
3351
15251

Des scores R, F et M au score RFM

Vous pouvez ensuite combiner les différents scores R, F et M pour obtenir un score RFM. Ce n’est pas forcément ce que nous recommandons, car l’intérêt des scores R, F et M est surtout de construire des segments (spoiler alert, on vous en parle plus bas).

Si vous voulez construire un score RFM global, vous pouvez le faire en additionnant les scores R, F et M et en divisant le tout par 3. Voici à quoi ressemble un tableau présentant les scores RFM :

ID ClientCellules RFMScore RFM
15,4,44.3
24,5,44.3
31,1,11.0
42,2,22.0
53,3,33.0
62,2,22.0
74,3,33.3
81,1,52.3
91,5,53.7
103,4,33.3
115,4,44.3
125,5,55.0
132,3,22.3
143,2,12.0
154,1,12.0

Le client 1 a un score R de 5, un score F de 4 et un score M de 4. Il a donc un score de (5 + 4 + 4) / 3 = 4.3.

Dans cet exemple, nous attribuons un poids égal à chaque variable, mais vous pouvez utiliser un système de pondération. Cela fait sens dans certains cas, comme nous le verrons tout à l’heure.

Mettez en place des recommandations de produits

La recommandation de produits est l’un des moyens les plus simples pour augmenter le panier moyen et, au-delà, le chiffre d’affaires dans le ecommerce. Dites-vous bien que 35% des ventes d’Amazon sont générées grâce à des recommandations proposées sur la plateforme et par email. Découvrez notre guide complet sur la recommandation de produits ecommerce : Méthode & Outils.

Des scores aux segments RFM

Si vous utilisez une échelle de scoring de 1 à 5, vous avez théoriquement 5 x 5 x 5 combinaisons possibles, soit 125 combinaisons. Vous pouvez donc créer 125 segments clients. Si vous utilisez une échelle de scoring de 1 à 6, de 1 à 7, les combinaisons se multiplient.

Mais ça n’a pas de sens d’utiliser autant de segments.

La bonne pratique consiste à limiter le nombre de segments à 20 maximum.

Dans ce cas, vous pouvez par exemple créer un segment « Champions » réunissant les clients ayant :

  • Un score R de 4 ou 5
  • Un score F de 4 ou 5
  • Un score M de 4 ou 5

Cette manière de faire permet de limiter le nombre de segments RFM. Chez Octolis, nous utilisons 11 segments, c’est largement suffisant (voir la capture d’écran présentée un peu plus haut).

Une méthode plus simple pour calculer les scores RFM

La méthode que nous venons de vous présenter a le mérite de vous présenter la logique du modèle RFM. Vous partez de vos données, vous les transformez en valeurs R, F, M, ces valeurs sont ensuite transformées en scores R, F et M, puis en segments RFM.

Mais plutôt que de construire manuellement vos scores RFM sur Excel, vous pouvez utiliser un outil qui vous fait les calculs automatiquement. Cela vous fera économiser du temps, supprimera le risque d’erreurs humaines et vous permettra de vous concentrer sur l’essentiel : la conception des actions marketing (campagnes et scénarios) sur chaque segment RFM.

Notre solution Octolis vous permet de créer des segments RFM automatiquement.

Vous n’avez que deux choses à faire si vous choisissez d’automatiser le modèle RFM.

La première chose consiste à définir les segments. Chez Octolis, nous utilisons 11 segments. Nous utilisons des scores compris sur une échelle de 1 à 6. Le segment « Champions » regroupe les clients ayant un score R de 5 ou 6 et un score F*M de 5 ou 6.

Mais après, à vous de faire votre sauce en choisissant des segments signifiants. Une quinzaine tout au plus, pas la peine de monter une usine à gaz.

Une fois que vous avez défini les segments et leurs caractéristiques, vous pouvez les configurer dans Octolis de manière intuitive. Aucune compétence technique n’est requise. L’interface est marketing user-friendly.

creation segments rfm octolis

Pour alimenter les données qui nourrissent le modèle RFM (les ID clients et les données transactionnelles), il vous suffit de connecter vos sources de données à Octolis. Nous proposons des connecteurs avec des systèmes de caisse et des solutions ecommerce pour créer le pipeline en quelques clics, sinon il y a les APIs qui ne sont pas beaucoup plus compliquées à utiliser.

Exploiter votre segmentation RFM

Remettre votre score RFM dans votre contexte business

Dans l’exemple que nous venons de vous présenter, nous attribuons un poids égal à chacune des 3 variables R, F et M.

Or, ces variables n’ont pas forcément la même importance suivant votre business. Si vous voulez construire un score RFM global, il peut être intéressant de pondérer les scores.

Par exemple :

  • Dans un business qui commercialise des produits ayant une longue durée de vie, la valeur M est souvent (très) élevée alors que les valeurs R et F sont faibles. C’est typiquement le cas dans les secteurs de l’automobile, de l’immobilier ou encore dans l’électroménager. On n’achète pas un frigo tous les quatre matins, et encore moins un bien immobilier. Dans ce contexte business, il est pertinent de donner plus de poids aux variables R et M qu’à la variable F.
  • Dans les secteurs du prêt-à-porter et des cosmétiques, un client qui achète des produits tous les mois aura un score R et F plus élevé que le score M. Dans ce cas, il faut donner plus de poids aux scores R et F qu’aux scores M.

Ce sont deux exemples qui montrent qu’il est souvent judicieux d’utiliser un système de pondération pour calculer les scores RFM.

Le guide du Scoring Client

Le scoring client permet de prioriser vos budgets marketing pour les clients les plus susceptibles d’acheter, et de mieux segmenter votre fichier client pour obtenir de meilleures performances dans vos campagnes. Découvrez notre guide complet sur le Scoring Client : Définition, exemples et méthode en 5 étapes.

Intégrer la dimension historique (passage d’un segment à l’autre entre les périodes N et N-1)

Un client peut passer d’un segment A à un segment B. C’est même la règle ! La segmentation RFM est dynamique. Pour aller plus loin, il est intéressant d’intégrer dans votre analyse des segments à l’instant t les segments de la période précédente. Le passage d’un segment à l’autre entre la période N-1 et la période N peut être l’occasion de mettre en place des scénarios marketing spécifiques.

De cette manière, vous ne vous contentez pas de cibler les actions marketing sur vos segments RFM, vous ciblez des actions spécifiques sur les clients ayant changé de segment. Vous ajoutez à la dimension structuraliste de la segmentation à l’intant t une dimension historique.

Visualiser votre RFM plus simplement

Nous vous conseillons d’utiliser une matrice RFM pour mieux visualiser vos segments RFM et leur poids respectif dans votre base clients.

Voici celle proposée par Octolis :

matrice rfm

La taille des rectangles est proportionnelle à la taille des segments. En passant la souris sur les rectangles, vous pouvez voir en un coup d’œil le poids respectif de chaque segment RFM.

segmentation rfm octolis

Aller plus loin

Le modèle RFM est puissant, mais a malgré tout quelques limites :

  • L’erreur humaine…Si vous optez pour l’approche manuelle (Excel), vous ne pouvez pas écarter le risque d’erreur humaine…D’où l’intérêt d’utiliser un outil pour automatiser les calculs à partir de vos données transactionnelles.
  • Juste 3 variables. La segmentation RFM n’utilise que 3 variables, 3 variables liées au comportement d’achat de vos clients. C’est passé à côté de beaucoup d’autres variables de segmentation intéressantes. Il est aujourd’hui possible de construire des modèles prédictifs intégrant plus de variables, et donc plus puissants.
  • La sur-sollicitation des meilleurs clients. Beaucoup d’entreprises utilisent la segmentation RFM pour bombarder leurs meilleurs clients de communications et délaisser les autres clients. Il y a un usage du modèle RFM qui peut s’avérer contre-productif…et dans lequel tombent pas mal d’entreprises.
  • Des hypothèses critiquables. Un client peut très bien ne pas acheter pendant 3 mois et se mettre tout à coup à devenir un acheteur compulsif. Les hypothèses qui servent de base au modèle RFM ne se vérifient pas toujours. Par exemple : « Un client qui a acheté récemment a plus de chances d’acheter à nouveau » : eh bien, c’est souvent vrai, mais pas toujours et pas pour tous les clients.
  • Une segmentation pas assez granulaire. Beaucoup de Retailers construisent une segmentation RFM sur l’ensemble de leurs produits alors que le comportement client est souvent différent d’une gamme de produits à l’autre. On se retrouve donc à comparer des choux et des carottes et surtout à mettre en place des communications (notamment, des recommandations de produits) qui sont peu pertinentes pour les clients. Avec, au final, un impact négatif sur la rétention et la fréquence d’achat.

Mais, sur ce dernier point, sachez qu’il existe des solutions pour calculer un score RFM par produit ou par gamme de produits. Octolis en fait partie. Notre solution vous permet de calculer en temps réel un RFM par produit. Surtout, une solution comme Octolis vous permet de faire remonter automatiquement les segments RFM dans vos outils d’activation : Marketing Automation, Facebook & Google Ads…

Voilà, nous espérons que ce guide d’introduction à la segmentation RFM vous aura apporté les éclairages que vous attendiez. Pour une entreprise du Retail qui veut se lancer dans la segmentation client, le modèle RFM reste la référence. Vous avez des doutes ou des questionnements sur le bon modèle de segmentation à mettre en place dans votre entreprise ? Eh bien, n’hésitez pas à nous contacter. On se fera un plaisir d’échanger avec vous !

Comment construire votre stack data moderne ? Comparaison des approches possibles

Le meilleur investissement que vous puissiez faire si vous voulez mieux exploiter vos données, c’est construire une stack data moderne.

La stack data, c’est l’ensemble des outils gravitant autour du data warehouse qui va vous permettre de valoriser vos données et de pleinement les exploiter dans vos applicatifs métier.

Il existe essentiellement 3 approches pour construire une stack data moderne :

  • L’approche best of breed : vous construisez chaque brique de la stack data en choisissant les meilleurs outils de leur catégorie.
  • L’approche agence : vous confiez la construction de la stack data à un prestataire.
  • L’approche tout-en-un : vous connectez à votre data warehouse un outil de Data Ops capable de gérer l’ensemble des traitements nécessaires à la valorisation des données.

Nous nous focalisons dans cet article sur les stack data modernes. Ces stack data, construites à partir d’outils cloud et d’outils self service (no ou low code) sont moins lourdes, moins chères, moins IT-dependantes que les stack data du passé. Elles deviennent la norme, surtout dans les entreprises les plus matures.

Qu’est-ce qu’une stack data (moderne) ?

Pour comprendre la fonction clé d’une stack data aujourd’hui, il faut partir de ce constat évident : les données, en particulier les données clients au sens large, sont l’un des actifs les plus précieux des entreprises. Sauf que ces données sont généralement sous-utilisées et ne délivrent pas toute la valeur qu’elle détienne.

Pour être pleinement valorisées, les données doivent être correctement connectées, consolidées, nettoyées, préparées, transformées, enrichies et activées dans les outils de destination : CRM, marketing Automation, analytics/BI…

La stack data désigne l’assemblage cohérent d’outils qui sert à réaliser toutes ces opérations, de la connexion des données à leur activation en passant par leur préparation et enrichissement.

stack data moderne
La stack data est une imbrication d’outils au service d’une meilleure exploitation des données par l’entreprise.

A quoi reconnaît-on une organisation data-driven ? Au fait qu’elle dispose d’une stack data moderne ! Avoir une stack data est une condition nécessaire, bien que pas suffisante, pour devenir data-driven.

La stack data facilite la circulation des données dans l’organisation et leur exploitation par les différents utilisateurs finaux.

Les stack data qualifiées de « modernes » ont 2 caractéristiques essentielles qui les distinguent des anciennes stack data. Elles se basent sur :

  • Des solutions cloud, et en particulier un data warehouse cloud servant de pivot, de « hub des données ».
  • Des outils low ou no-code (on parle aussi d’outils self-service) qui permettent de démocratiser l’accès et la manipulation des données.

Les composantes d’une Stack Data Moderne

La stack data moderne est un ensemble d’outils gravitant autour d’un data warehouse construit sur une plateforme cloud. Une stack data moderne contient 5 briques clés, 5 composantes fondamentales qu’on peut désigner par des verbes :

  • Collecter. Une entreprise possède une dizaine, une vingtaine, une trentaine de sources de données. C’est grâce à elles que l’organisation collecte les données sur les différents canaux et aux différentes étapes des parcours clients.
  • Connecter (ou « charger », ou « stocker »). Les sources de données sont connectées à un data warehouse (DWH) cloud qui sert de réceptacle principale des données.
  • Transformer. Les données sont préparées, consolidées, nettoyées, transformées au moyen d’outils spécifiques. Si la transformation des données précède leur chargement dans le DWH, on parle d’outils ETL (Extract-Transform-Load). Dans le cas contraire, de plus en plus fréquent, on parle d’outils ELT (Extract-Load-Transform).
  • Analyser. Les données stockées dans le DWH sont utilisées pour produire des analyses, des reportings, des data visualisations via des outils de Business Intelligence (BI).
  • Activer. Les données du DWH ne servent pas seulement à créer des reportings, elles servent aussi à alimenter les outils d’activation (CRM, marketing automation…), via une solution « Reverse ETL ».

Chacune de ces composantes de la stack data moderne désigne une étape du cycle de vie des données et fait appel à un ou plusieurs outils.

Nous allons vous décrire plus précisément chacune de ces composantes, en vous épargnant la première qui nous amènerait à vous détailler les différentes sources de données utilisées par les entreprises. On va éviter la liste à la Prévert.

Connecter – Charger – Stocker : la place pivot du Data Warehouse

Le data warehouse sert de réceptacle des données. Il met en connexion l’ensemble des sources de données de l’entreprise et permet ainsi de stocker l’ensemble des données de l’organisation dans un même endroit. Comme nous le disions plus haut, le DWH joue le rôle de pivot de la stack data moderne. C’est autour de lui que gravitent toutes les autres composantes. C’est l’émergence de cette nouvelle génération de data warehouse basés dans le cloud qui a permis le développement de la stack data moderne.

Le data warehouse a la capacité de stocker tous types de données. Lorsqu’il permet même de stocker des données non structurées, « en vrac », on parle de « data lake ». D’ailleurs, dans certaines organisations, le data warehouse cloud est construit en aval d’un data lake qui accueille de manière indifférenciée toutes les données générées par les sources.

stack data moderne data lake data warehouse
Source : Qubole.

Comment intégrer les données dans le data warehouse ?

Il existe plusieurs réponses à cette question. Nous vous proposons un panorama des différentes familles d’outils permettant de connecter vos sources de données à votre data warehouse. Découvrez notre panorama des outils d’intégration des données.

Un data warehouse cloud est une solution scalable et puissante. La réduction des coûts de stockage et l’augmentation de la puissance de calcul (qui permet d’exécuter des requêtes SQL sur de gros volumes de données en quelques secondes) sont les deux évolutions majeures sur le marché des data warehouses – évolutions permises grâce au cloud.

Les solutions DWH les plus connues du marché restent celles proposées par les GAFAM :

On observe depuis le début des années 2020 la montée en puissance de « pure players », Snowflake en tête.

Légende : Medium. Mai 2020. Redshift plafonne, BigQuery monte, Snowflake explose.

Voici 2 autres caractéristiques des data warehouses cloud, pour achever de brosser le tableau de cette technologie incontournable :

  • Les DWH sont serverless. Vous n’avez pas à gérer les serveurs. Ils sont fournis et maintenus par l’éditeur.
  • Les DWH sont facturés à l’usage. Vous payez ce que vous utilisez, que ce soit en termes d’espace de stockage ou de puissance de calcul. Certaines solutions, comme Snowflake, facturent distinctement le stockage et le computing, ce qui augmente encore la souplesse tarifaire.

Une introduction à la Stack Data Moderne

Un Data Engineer qui aurait été cryogénisé en 2010 et que l’on réveillerait par malice aujourd’hui ne comprendrait plus grand-chose à la Stack Data Moderne. Heureusement pour lui, il pourrait rapidement se mettre à jour en découvrant notre guide introductif à la Stack Data Moderne. Un article qui complète bien celui que vous êtes en train de lire.

Ingérer : la gestion des pipelines de données via une solution ELT/ETL

La deuxième composante de la Stack Data regroupe l’ensemble des outils qui permettent de faire circuler les données entre les différents systèmes. Et plus précisément : entre les sources de données et le data warehouse.

Une solution ELT ou ETL sert à brancher les sources de données (outils marketing, réseaux sociaux, logs, APIs…) au data warehouse.

Il y a essentiellement deux manières d’intégrer les données :

  • ETL. La première consiste à transformer les données avant de les charger dans le data warehouse. Si bien que les données arrivent bien préparées dans l’entrepôt de données en fonction des règles de modélisation de votre DWH. C’est l’option traditionnelle que l’on appelle ETL : Extract – Transform – Load, qui était utilisée dans les stack data anciennes. On transforme (T) avant de charger (L).
  • EL(T). La deuxième approche, plus moderne et plus souple, consiste à utiliser un outil qui va charger les données dans le data warehouse sans les transformer. Dans ce cas, les transformations des données sont réalisées en aval, soit par le même outil, soit par un autre outil, soit en utilisant les fonctions proposées nativement par l’éditeur du data warehouse. On parle alors d’EL(T).

Dans la famille des outils EL(T), on trouve notamment Stitch ou Fivetran. 2 références. Ces solutions ont développé des connecteurs avec des solutions leaders (Facebook, Salesforce, Google Analytics…) qui vous permettent de connecter vos sources de données à votre entrepôt de données en quelques secondes, via une interface no-code.

stack data moderne stitch connecteurs
Outil EL(T), Stitch Data propose des dizaines et des dizaines de connecteurs natifs pour connecter vos sources de données à votre data warehouse en quelques clics.

Le modèle économique de ces solutions est basé sur le volume de données ingéré, exprimé en nombre d’événements ou en lignes. A noter qu’il existe aussi des outils EL(T) open source, donc gratuits, mais dont la prise en main requiert des compétences IT. Je pense notamment à Airbyte, ou bien au framework Singer, qui propose une belle bibliothèque de scripts écrits en Python pour connecter vos sources au data warehouse. Pour la petite histoire, Stitch utilise le code de Singer pour créer ses connecteurs en 3 clics.

En optant pour un outil ELT payant comme Stitch ou Fivetran, ce que vous payez, c’est l’interface user-friendly et les connecteurs natifs, pas la technologie sous-jacente qui s’appuie généralement sur des frameworks open source. Après, il y a clairement un ROI à utiliser un outil payant, surtout si vous êtes une jeune entreprise et que vous n’avez pas les compétences internes pour utiliser un framework open source. Les connecteurs facilitent quand même vraiment la vie !

Transformer : le nettoyage et la consolidation des données

Avec des outils ETL ou ELT (sans parenthèses sur le « T »), la transformation des données est réalisée par le même outil que celui utilisé pour charger les données dans le data warehouse. Vous avez un même outil qui s’occupe du « L » et du « T ». Un exemple de logiciel ELT ? Weld, par exemple.

Mais la tendance générale consiste à utiliser des outils différents pour ces deux opérations.

Dans une stack data moderne, on a généralement :

  • Un outil EL qui sert à créer les pipelines de données, à charger les données provenant de vos différentes sources dans le data warehouse.
  • Un outil de data prep qui transforme les données de votre data warehouse. Découvrez notre panorama des meilleurs outils de data prepation.

Transformer des données consiste à appliquer aux données chargées dans le DWH un certain nombre de règles et de fonctions adaptées à vos cas d’usage et au design du Data Warehouse. Les opérations de transformation classiques incluent, notamment, le renommage de colonnes, la jonction de plusieurs tables, l’agrégation de données…

Un exemple d’outil ? dbt. Cette solution permet aux data analysts et aux data engineers de transformer les données du DWH beaucoup plus facilement qu’auparavant, via l’édition de codes de transformation SQL. dbt fait partie de ces outils dont on parle beaucoup en ce moment, et à juste titre tant la solution est à la fois simple et puissante. C’est grâce à ce genre d’outils qu’un data analyst peut gérer la transformation des données lui-même, sans avoir besoin de l’appui d’un data engineer ou d’un développeur Python. Précisons que dbt est open source, même s’ils proposent aussi une version payante.

stack data moderne db interface
dbt est l’outil de référence pour transformer les données stockées dans le Data Warehouse, via des scripts SQL.

Il existe quelques concurrents à dbt, notamment :

  • Dataform, récemment acheté par Google Cloud.
  • Databricks, qui a signé un partenariat avec Google Cloud (mais fonctionne aussi sur Azure et AWS).

Passons à l’étape suivante. A quoi servent les données transformées du data warehouse ? A faire deux choses : de l’analyse et de l’activation. Commençons par l’analyse.

Analyser : la solution de DataViz / BI

Les données organisées du data warehouse sont d’abord utilisées pour alimenter un outil de Business Intelligence (BI) qui sert à construire des reportings, des tableaux de bord, des data visualisations, des modèles prédictifs.

L’analyse des données permet de piloter les performances de l’entreprise, d’identifier des tendances, des évolutions, de mieux cerner les parcours clients, de mieux comprendre le comportement des clients, d’identifier la part de chaque canal dans la performance (via des modèles d’attribution) et de manière plus générale d’éclairer les prises de décision.

L’analyse des données s’effectue depuis un outil de Business Intelligence (comme Tableau, Looker, PowerBI ou QlikView), dont l’utilisateur principal est le data analyst. Ces outils permettent de créer des reportings avancés à partir de toutes les données du Data Warehouse auxquelles ils sont connectés via des connecteurs ou des APIs.

Ces outils coûtent relativement cher, sauf Google Data Studio, qui est 100% gratuit. Data Studio est une solution assez puissante, que nous avons beaucoup utilisée dans notre passé de consultants, et qui a l’avantage (par définition) de bien s’intégrer à l’écosystème de Google Cloud. On recommande aussi Metabase, qui est un outil de BI open source.

Un exemple de reporting Data Studio.

Les reportings sont synchronisés avec toutes les sources que vous voulez (votre data warehouse, Google Ads, les réseaux sociaux, des spreadsheets, etc.) et donc mis à jour en temps réel. Les outils de BI ont fait de gros efforts pour proposer des interfaces très simples d’utilisation. Ils proposent des templates de reporting souvent très bien pensés et qui permettent de gagner beaucoup de temps.

Les outils de BI sont aussi appelés « outils de DataViz » ou « outils de Data Visualization » dans le sens où ils permettent de présenter les données de manière visuelle, sous forme de graphiques, de tableaux, de courbes, de charts…

Dashboards ecommerce Google Data Studio

Google Data Studio est une solution de BI gratuite et proposant de nombreux templates personnalisables de bonne qualité. Pour vous en rendre compte par vous-même, nous vous invitons à découvrir notre sélection des 50 meilleurs dashboards ecommerce de Google Data Studio.

Activer : le Reverse ETL pour redistribuer les données à vos outils

Il y a encore quelques années, les données stockées dans le data warehouse n’étaient utilisées que pour faire du reporting et de l’analyse. Le data warehouse servait de socle de la BI. C’était sa seule fonction. Les temps ont changé et l’une des caractéristiques de la stack data moderne est l’avènement de ce qu’on appelle les Reverse ETL.

Un Reverse ETL, comme l’indique son nom, fait l’inverse d’un outil ETL. Un outil ETL charge les données en provenance de vos sources de données dans le data warehouse. Un Reverse ETL est une solution qui sert à extraire les données stockées dans le data warehouse pour les mettre à disposition des outils d’activation / business : CRM, marketing automation, help desk, comptabilité…

Un Reverse ETL permet de mettre les données du data warehouse au service des équipes métiers : marketing, ventes, service client, digital, finance…Il synchronise les données agrégées du DWH dans les applicatifs utilisés au quotidien par le métier.

Avec un Reverse ETL, par exemple, vous pouvez intégrer les données Stripe et Zendesk (préalablement chargées dans le data warehouse) dans votre CRM Hubspot.

Si on avait parlé des Reverse ETL à un DSI des années 2000, il nous aurait ri au nez. Qu’un data warehouse serve à alimenter un CRM (via notre Reverse ETL) était une idée absurde. Le data warehouse était le réceptable des données froides, le CRM et les outils d’activation en général le réceptacle des données chaudes. Mais avec l’avènement de la nouvelle génération de data warehouse cloud, les règles du jeu changent : le data warehouse peut devenir un référentiel opérationnel. Et ça change tout !

A la découverte des Reverse ETL

Le Reverse ETL est le chaînon manquant qui empêchait jusqu’au début années 2020 de synchroniser les données du data warehouse dans les applicatifs métier. Pour en savoir plus sur cette technologie incontournable de la stack data moderne, nous vous invitons à découvrir notre guide introductif sur les Reverse ETL.

Si vous vous allez plus loin, nous vous conseillons de jeter un œil à cette liste de ressources consacrée à la stack data moderne.

3 approches pour construire votre Stack Data

Voici les 3 options qui s’offrent à vous pour construire votre stack data moderne. Pour construire notre tableau, nous avons pris pour hypothèse une entreprise ayant un effectif d’une cinquantaine de personnes.

Best of breedOutsourcée Tout-en-un
Ce dont vous avez besoinAu moins 1 ingénieur analyticsUn budget significatif
  • Un petit budget
  • Un Data/Business analyst (ou un profil Business Ops)
Combien ça coûte ?Environ 500€ par mois pour les outils et quelques mois de votre ingénieur analytics
  • Installation initiale : 10 - 30k€
  • Exploitation : 2 - 5k€ par mois
  • Environ 1 000€ par mois pour les outils
  • Quelques jours de votre Business Analyst
Stack TechnoUn outil comme Fivetran + dbt + BigQuery + MetabaseChoisie par l'agenceUn outil comme BigQuery + Octolis + Metabase

Option #1 – Construire en interne une Stack Data best of breed

La première option consiste à construire votre stack data moderne vous-même en allant chercher le « meilleur » outil de chaque catégorie. Voici les grandes étapes à suivre si vous optez pour cette option :

  • Définir vos objectifs et l’organisation cible. Pour quelles raisons souhaitez-vous déployer une stack data moderne ? Vous devez partir des objectifs de votre organisation et ensuite les décliner en cas d’usage data. Ce travail incontournable d’expression du besoin vous aidera à prendre les bonnes décisions tout au long de votre projet.
  • Choisir les outils de votre stack data. Nous avons passé en revue les principales composantes d’une stack data moderne. Pour chaque composante, il existe plusieurs outils possibles. A vous de choisir ceux qui répondent le mieux à vos objectifs, vos besoins, vos contraintes, votre budget. Ne souscrivez pas un seul abonnement à un logiciel avant d’avoir une vision cible des principaux outils qui constitueront votre stack data. Le choix le plus structurant est celui du data warehouse. Choisissez ensuite votre ETL/ELT, votre outil de data transformation, votre Reverse ETL, votre outil de BI. Vous devez choisir des outils qui se connectent bien entre eux. Le critère de la connectivité est l’un des principaux à prendre en compte. Typiquement, des outils comme Fivetran ou Stitch se valent à peu près, ils font la même chose, la différence réside surtout au niveau des capacités d’intégration, des connecteurs disponibles.
  • Mettre en place les pipelines de données et configurer le data warehouse. L’étape suivante consiste à construire les flux de données entre vos sources de données et votre data warehouse, via votre outil EL(T)/ETL. Vous devez aussi construire le modèle de données de votre data warehouse, c’est-à-dire définir la manière dont les données vont s’organiser dans les tables de votre DWH. C’est sans doute l’étape la plus technique, celle qui nécessite de vraies compétences IT (maîtrise de SQL en particulier).
  • Construire vos premiers reportings. C’est une étape techniquement facile. Les outils de BI proposent des interfaces user-friendly et permettent de connecter les sources de données de manière relativement simple. La difficulté est de construire des reportings intelligents, pertinents, utiles, bien pensés. Si vous n’avez pas besoin de compétences IT pour construire vos premiers rapports, vous devrez en revanche vous entourer de professionnels de la data : en particulier d’un ou de plusieurs data analysts.
  • Définir les process internes. L’avantage d’une stack data moderne, c’est qu’elle est utilisable par presque tout le monde. Mais cela fait naître un risque au niveau de l’intégrité de vos données. Il est donc essentiel de définir des process internes, des règles en matière de traitement des données, de gestion des accès et des droits, de définir des procédures, des rôles, d’établir une documentation, etc. Bref, vous devez poser les bases d’une bonne et saine Gouvernance des Données. Où l’on voit que construire une stack data moderne est un projet autant organisationnel que technique…
  • Définir une roadmap. Nous vous recommandons d’adopter une approche progressive dans le déploiement de votre stack data. C’est un projet suffisamment complexe et chronophage en soi…donc ne cherchez pas à tout transformer d’un coup. Nous pensons en particulier ici aux cas d’usage de la stack data. Ils ont vocation à augmenter avec le temps, à s’enrichir, à s’affiner. Mais ne cherchez pas à les déployer tous en même temps. Commencez par les cas d’usage prioritaires. Nous vous conseillons aussi de mettre en place une bonne direction de projet, avec des instances de pilotage.

Benchmark des outils de la Stack Data Moderne

Vous êtes intéressé(e) par cette option ? Nous vous invitons à découvrir notre benchmark complet des outils de la stack data moderne. Pour chaque famille d’outils (ETL, data warehouse, data prep…), nous vous proposons les meilleures solutions du marché.

Option #2 – Déléguer la mise en place de votre Stack Data à une agence

La deuxième option, plus coûteuse, consiste à déléguer la construction de votre Stack Data à une agence. Voici les étapes à suivre si c’est l’option que vous choisissez :

  • Définir vos besoins. Vous devez construire un cahier des charges solide dans lequel vous formalisez vos objectifs, décrivez votre situation actuelle (notamment l’état de votre écosystème Data/Tech), vos cas d’usage cibles en matière de données. Vous devez être le plus exhaustif et précis possible. Le cahier des charges va vous forcer à bien formaliser l’expression de votre besoin et à la partager à votre agence partenaire. C’est le document qui servira de point de repère tout au long du projet.
  • Choisir l’agence. Il existe des dizaines et des dizaines d’agences data sur le marché. Vous devez choisir celle la plus en phase avec votre besoin, vos attentes, vos contraintes…Nous vous conseillons de tester au moins 3 ou 4 agences. Interrogez-les sur votre projet, vous pourrez les évaluer en fonction de la manière dont elles répondent à vos questions et comprennent votre cahier des charges. Pensez aussi à scruter les références clients des agences ciblées. Nous vous conseillons même de demander aux agences cibles des exemples de cas clients proches du vôtre. Allez même plus loin : demandez à l’agence de vous communiquer les coordonnées d’1 ou 2 clients pour les contacter et leur demander un retour d’expérience.
  • Suivre de près le projet. Il est important de mettre en place des instances de pilotage (points hebdos, CoPil) afin de suivre de près l’avancement du projet, éviter les dérives, contrôler le respect du planning et du budget. La qualité de la communication entre votre entreprise et l’agence est clé si vous voulez obtenir des livrables et des résultats à la hauteur de vos espérances.

Option #3 – Construire en interne une Stack Data via une solution tout-en-un

Nous avons défini la stack data moderne comme une imbrication d’outils. Pour être plus précis, il faudrait parler d’une imbrication de fonctions, dans la mesure où il existe des outils tout-en-un couvrant plusieurs composantes de la stack data.

Un outil comme Octolis par exemple gère à la fois l’ingestion des données, leur modélisation et leur « opérationnalisation », c’est-à-dire la redistribution des données du DWH aux outils de destination. Octolis joue donc à la fois le rôle d’outil EL(T), d’outil de data prep et de Reverse ETL. Nous sommes ce que l’on appelle un outil de « DataOps ».

La troisième option que nous présentons consiste donc à construire votre Stack Data Moderne à partir de deux solutions clés :

  • Un data warehouse cloud.
  • Un outil tout-en-un de « DataOps ».
panorama fonctionnalites octolis
Panorama des fonctionnalités d’un outil de Data Ops comme Octolis.

Cette option a plusieurs avantages :

  • Elle est plus rapide à déployer.
  • Elle est plus simple à déployer et à prendre en main. Pas besoin d’avoir une grosse équipe data, vous n’avez besoin que d’un data analyst ou d’un analytics engineer pour construire les rapports (et vous aider à paramétrer le DWH).
  • Elle est moins coûteuse. Un outil de Data Ops coûte moins cher comparé à l’addition des coûts d’un EL(T), d’un outil de data prep et d’un Reverse ETL.
  • Résultat : le ROI est plus rapide.
  • Enfin, c’est une solution souple et scalable.

C’est l’option que nous recommandions souvent dans notre vie de consultants et c’est pourquoi nous avons développé Octolis. Cette option est particulièrement recommandée pour les entreprises de mid-market (PME) qui n’ont ni les grosses équipes data nécessaires pour construire une stack data best of breed ni le budget pour confier le travail à une agence.

Si vous choisissez cette option, voici schématiquement les étapes à suivre :

  • Définir les besoins. Dans cette option comme dans les autres, il faut commencer par formaliser les objectifs, les besoins métiers et les cas d’usage de la stack data. C’est la base de tout projet data !
  • Choisir un data warehouse et une solution Data Ops. Dans cette option d’organisation, les deux outils clés sont le data warehouse, réceptacle des données, et l’outil de Data Ops qui va servir à réaliser la plupart des opérations sur les données que nous avons décrites dans la première section de l’article.
  • Installer la stack data à partir de la solution de Data Ops. C’est dans la solution de Data Ops que vous allez connecter vos sources à votre data warehouse, préparer les données (nettoyage des données, consolidation, enrichissement, agrégation) et synchroniser les données agrégées dans les outils de destination.
  • Construire les premiers rapports, en utilisant un outil de BI comme Metabase ou Data Studio. Vous allez avoir besoin de quelques jours de travail de votre data analyst pour produire les rapports clés. Ne construisez pas une usine à gaz, concentrez-vous sur les quelques rapports prioritaires pour le suivi de votre activité.
  • Définir la roadmap et les process internes. Même commentaire que pour l’option 1. Définissez une roadmap de déploiement et d’évolution de votre stack data et mettez en place une gouvernance des données pour préserver l’intégrité de la stacj, des données, et encadrer l’utilisation des outils.

Le choix de la méthode de construction de votre stack data doit être en adéquation avec la taille de votre entreprise, vos cas d’usage cibles, vos contraintes (IT, budgétaires) et les caractéristiques de l’organisation (taille de l’équipe data).

Les trois options que nous vous avons présentées ont chacune leur intérêt. Nous sommes convaincus que la troisième est celle qui convient le mieux aux entreprises mid-market : les startups dans leur première phase de croissance et les PME ayant une maturité data intermédiaire et une équipe data réduite à 1 ou 2 personnes.

Quelles compétences pour être un bon Data Analyst ?

Pour recruter un Data Analyst, il est essentiel d’avoir une compréhension très claire de son rôle dans l’entreprise et des compétences requises, qui sont comme nous le verrons un subtil mélange de hard et de soft skills.

Votre première étape, en tant que recruteur, va consister à rédiger une fiche de poste décrivant le rôle de la personne dans l’entreprise, les résultats attendus et les compétences exigées. Pour réaliser cette étape, nous vous conseillons de découvrir cet excellent modèle basé sur le fameux livre « Who: The A Method for Hiring ».

Dans notre article, nous avons fait le choix de la simplicité. Après avoir rappelé ce qu’était un Data Analyst, son rôle, ses tâches, nous passerons en revue les principales compétences attendues.

competences data analyst
source : beamjobs.

Précisons d’emblée que les compétences recherchées varient en fonction des caractéristiques et de la taille de l’organisation. Pour prendre un exemple très simple, si vous n’avez pas de data engineer, vous devrez recruter un data analyst capable de jouer le rôle de data engineer, de gérer les pipelines de données. On parle parfois d' »analytics engineer » pour définir ces profils polyvalents.

La graphique proposée ci-dessus met en avant les compétences techniques recherchées par les recruteurs. On retrouve les grands classiques : la maîtrise du SQL (la base), des outils de BI, d’Excel, des langages de programmation Python ou R…Mais la qualité d’un data analyst se mesure de plus en plus à ses soft skills comme nous allons le voir. Bonne lecture !

Comprendre le rôle d’un Data Analyst

Les différents rôles dans une équipe data

Parce qu’une image vaut mieux que mille mots, commençons par cette belle illustration des différents rôles dans une équipe data :

role equipe data
Source : abartholomew.com

Une équipe data réunit des profils dont les compétences se répartissent autour de 3 grands pôles :

  • L’ingénierie data, c’est-à-dire l’organisation des pipelines des données, la capacité à organiser les flux entre les sources de données, le data warehouse et les outils. Le Data Engineer est le métier de la data qui incarne le mieux ce pôle.
  • La data analysis, qui consiste à analyser les données pour en tirer des enseignements utiles pour le business et les prises de décision stratégiques. Le Data Analyst est le métier de la data qui incarne le mieux ce pôle et celui sur lequel on va concentrer dans cet article.
  • La modélisation, qui consiste à construire des modèles d’analyse avancés, notamment des modèles statistiques et prédictifs. Ce sont les mathématiciens et les statisticiens de haut niveau qui incarnent le mieux ce pôle.

Ces trois pôles dessinent un ensemble de rôles. Nous avons parlé des Data Engineers, des Data Analysts, des statisticiens. Mais il existe aussi des profils à l’intersection de plusieurs pôles, comme le montre très bien le schéma. Le Data Analyst est à l’intersection du pôle Analysis et du pôle Statistics. Les analytics engineers sont en quelque sorte des data analysts ayant une forte appétence pour la gestion des flux et transformations de données (ETL).

Surtout, ces différents rôles peuvent être endossés par 1 ou n personnes suivant la taille de l’organisation et les enjeux autour de la data. Typiquement, dans les petites organisations, le Data Analyst et le Data Engineer sont généralement la même personne. À l’inverse, dans les grandes organisations, un même rôle peut être partagé entre plusieurs personnes.

Data Engineer Vs Data Analyst vs Data Scientist

Avant d’entrer dans le détail des compétences nécessaires à un Data Analyst, rappelons les différences entre un Data Analyst, un Data Engineer, un Data Scientist et un Analytics Engineer.

data scientist data engineer data analyst
Source : Université d’Adelaide.

Data Engineer, le gestionnaire des pipelines de données

Le data engineer est le rôle qui consiste à mettre en place les pipelines de données. Il gère la manière dont les données sont stockées dans le système d’information, chargées dans l’entrepôt de données et redistribuées dans les différents outils de l’entreprise. Il est responsable de l’infrastructure data de l’entreprise. C’est un technicien.

En résumé, le data engineer est celui qui gère les process ETL : Extraction – Transformation – Load. Il utilise pour cela des outils spécialisés comme Stitch ou Fivetran. Il assure la maintenance et les évolutions du data warehouse cloud de l’entreprise : Snowflake, BigQuery, Redshift, Azure

Pour prendre des exemples parlants, c’est votre data engineer qui garantit que votre instance dbt est bien sur la dernière version, qui gère les permissions dans Snowflake, qui gère et édite les workflows Airflow.

Panorama des outils d’intégration des données

En 2020 une organisation utilise en moyenne 110 applications Saas, contre seulement 8 en 2015. Ces outils augmentent la performance opérationnelle mais créent des silos qui freinent le déploiement des cas d’usage de la donnée. Découvrez notre tour d’horizon des outils pour intégrer toutes les données de votre entreprise : iPaaS, ETL, ELT, CDP, Reverse ETL.

Data Analyst, celui qui transforme les données en enseignements business

Le Data Analyst a pour rôle de dégager des enseignements à partir de l’analyse des données de l’entreprise. Il est chargé de faire « parler les données », via des outils de Business Intelligence et des méthodes d’analyse. Il construit des tableaux de bord et des data visualizations à l’aide d’outils comme Power BI, Tableau ou Looker.

Le Data Analyst est sans doute le rôle le plus important dans une équipe data, car c’est lui qui fait le pont entre le reste de l’équipe data et les équipes métier. Il analyse les données pour répondre aux questions posées par les décideurs et le métier.

Il a un pied dans les données et un pied dans le business.

Mais nous aurons l’occasion dans quelques instants de revenir en détail sur ce rôle clé 🙂

Data scientist, le constructeur de modèles d’analyse avancés (machine learning, IA…)

Le data scientist créé des modèles d’analyse, des algorithmes de machine learning pour prédire ou automatiser les actions data-dépendantes. Il se base sur les principes de la data science pour répondre à des questions complexes auxquelles l’analyse classique ne permet pas de répondre.

Les tâches et responsabilités d’un Data Analyst

Recentrons-nous sur le métier de Data Analyst. Le rôle d’un Data Analyst est d’interpréter les données pour répondre à des problématiques spécifiques.

Voici une liste des principales tâches qu’un Data Analyst est amené à réaliser au cours de ses journées :

  • Rassembler les données. Les data analysts sont souvent amenés à collecter les données eux-mêmes, quelles que soient les formes que cela prend : mettre en place des sondages, tracker les caractéristiques des visiteurs du site internet ou acheter des sets de données auprès de fournisseurs spécialisés.
  • Nettoyer les données. Les données brutes peuvent contenir des informations dupliquées, des erreurs ou des valeurs aberrantes. Nettoyer les données consiste à maintenir la qualité des données. De la qualité des données dépend la validité des analyses !
  • Modélisation des données. La modélisation des données consiste à organiser les données en vue des analyses. Elle permet au data analyst de choisir le type de données qu’il souhaite stocker/collecter et d’établir les relations entre les catégories de données. Une bonne maîtrise de la structure des bases de données relationnelles est requise !
  • Interprétation des données. Interpréter les données consiste essentiellement à découvrir des patterns ou des tendances grâce à l’analyse des données.
  • Présenter les résultats. Le data analyst communique les résultats de ses analyses aux décideurs et au métier. Comment ? En utilisant l’art de la data visualization, en construisant des graphiques, des tableaux, des rapports pour présenter les informations dans un format compréhensible par les personnes intéressées.

Les tâches d’un data analyst varient d’une entreprise à l’autre. Le travail d’un data analyst ne sera pas le même dans une petite organisation et dans une grande organisation. Dans les entreprises qui ont de grosses équipes data, le data analyst utilise beaucoup moins ses compétences en modélisation de données (ce travail est confié aux analytics engineers) mais est beaucoup plus focus sur la compréhension du business et la collaboration entre l’équipe data & les équipes métier.

Si vous envisagez de recruter un data analyst et que vous cherchez de l’inspiration pour rédiger la fiche de poste parfaite, nous vous conseillons la lecture de cet excellent article de getdbt : Guide to writing data, analytics engineer, and data analyst job descriptions.

Les compétences techniques d’un Data Analyst

SQL

C’est la compétence technique numéro 1. C’est le principal outil utilisé par les data analysts pour mettre à jour, organiser et explorer les données stockées dans des bases relationnelles. SQL est un langage de base de données très puissant sur lequel les data analysts peuvent facilement passer plusieurs heures par jour. Vous trouverez la mention de « SQL » dans toutes les fiches de poste de Data Analyst.

Dans tous les process de recrutement, on demande au candidat de rédiger des requêtes SQL. C’est vraiment la base. Le succès de SQL, qui est un langage remontant aux années 1970 (!), s’explique par le succès persistant des bases de données relationnelles.

Voici quelques exemples de la manière dont un data analyst utilise le SQL :

  • Joindre, agréger et filtrer les données d’une table de données
  • Extraire des rapports CSV pour les parties prenantes (données brutes)
  • Créer des rapports plus complets à partir de données issues de Tableau, Looker…
  • Créer des connexions de données statiques ou live pour alimenter les reportings ou les tableaux de bord

Tableurs

Reconnaissons qu’il est parfois plus facile de gérer, visualiser et manipuler vos données dans une feuille de calcul après les avoir requêtées avec SQL. Utiliser des tableurs n’est sans doute pas la compétence la plus intéressante, mais c’est probablement l’une de celles qu’un data analyst utilise le plus souvent au quotidien.

Microsoft Excel et Google Sheets sont les deux principales solutions du marché. Excel propose des fonctionnalités plus avancées mais Google Sheets a l’avantage d’être plus adapté au travail collaboratif.

Voici quelques exemples de la manière dont un data analyst utilise les tableurs Excel ou Google Sheets :

  • Visualiser rapidement des données
  • Partager rapidement des données
  • Mettre en lumière certaines données pour faire des comparaisons
  • Classer des données
  • Grouper des données (en utilisant des tableaux croisés dynamiques)
  • Faire des analyses rapides à la volée (en mode « dirty »)
  • Utiliser la pléthore de fonctions que les tableurs proposent (ce sont des outils bien plus puissants qu’on le pense généralement !)
  • Imaginer et utiliser des formules de calcul maison
  • Utiliser la mise en forme conditionnelle
  • Présenter des enseignements aux parties prenantes de l’entreprise (un Excel peut très bien être utilisé pour créer des tableaux de bord et des reportings)

Langages de programmation (R et Python)

SQL permet d’extraire les données dont on a besoin à partir de l’entrepôt de données. Les langages de programmation R et Python, quant à eux, permettent de faire des analyses (beaucoup) plus avancées que ce qu’il est possible de faire avec un tableur Excel.

Les langages de programmation les plus utilisés par les data analysts sont R et Python. Ce ne sont pas les seuls. On utilise aussi (mais beaucoup moins) SAS et Java. Maîtriser un ou plusieurs langages de programmation est un gros avantage quand on est data analyst.

Voici quelques exemples de la manière dont un data analyst utilise les langages de programmation R ou Python :

  • Calculer la significativité statistique d’un phénomène
  • Utiliser des bibliothèques pour réaliser des tâches plus facilement et/ou plus efficacement :
    • Bibliothèques Python : Pandas pour la préparation et la manipulation des données, Matplotlib pour la data visualization, Scikit-learn pour l’analyse régressive et les arbres de décision.
    • Bibliothèques R : Dplyr pour la préparation et la manipulation des données, Ggplot2 pour la data visualization.
  • Réaliser des expérimentations et tester des hypothèses
  • Utiliser des techniques statistiques classiques comme ANOVA (Analyse de la Variance)
  • A/B tester des produits
  • Analyser les valeurs aberrantes
  • Analyser la qualité des données
  • Faire de la régression

Il y a des tonnes de fonctions qui utilisent des méthodologies statistiques et peuvent être mises en œuvre grâce aux langages de programmation. Tous les data analysts ne maîtrisent pas ces langages, mais c’est un avantage compétitif certain. Il est de plus en plus conseillé, quand on est data analyst ou qu’on aspire à le devenir, de maîtriser au moins un de ces langages informatiques.

langages programmation python r sas java
Source : beamjobs.com

Data Visualization

Les data analysts doivent être capables de partager de manière claire, simple et concise les résultats de leurs analyses. La data visualization permet de communiquer des informations et des enseignements basés sur la data à des personnes qui ne sont pas data analysts.

Elle consiste, comme son nom l’indique, à utiliser des moyens visuels : graphiques, courbes, bâtonnets, etc. pour illustrer des enseignements. La Data Visualization est une des compétences incontournables du data analyst. Tableau, Power BI, Jupyter Notebook et Excel sont parmi les outils les plus populaires pour créer des data visualizations.

Voici quelques exemples de la manière dont un data analyst utilise la data visualization :

  • Articuler des données complexes dans un format (visuel) facile à comprendre
  • Partager des données ou des résultats aux autres parties prenantes de manière simple
  • Comparer des données entre elles
  • Explorer les données. Point important : la data visualization peut aussi être utilisée pour découvrir des enseignements impossibles à déduire de suites de chiffres.
  • Visualiser beaucoup de données et d’informations dans un même endroit, sans avoir à scroller ou à sauter d’un écran à l’autre.

Data preparation

On estime que près de 80% du temps de travail des professionnels de la data consiste à nettoyer et préparer les données. C’est colossal. Mais ce travail est indispensable car avant d’analyser les données il faut les réunir, les consolider, les nettoyer et parfois les transformer. De mauvaises données aboutissent à de fausses analyses.

Ce n’est clairement pas la partie la plus intéressante du métier de data analyst. C’est d’ailleurs dommage que la data prep continue de consommer autant de bande passante quand on sait qu’il existe des solutions (dont Octolis) permettant d’automatiser toutes les étapes de préparation des données.

octolis preparation des données
Octolis, une solution Data Ops permettant de gérer l’ensemble des étapes de préparation des données sur une même interface.

Voici quelques exemples de la manière dont un data analyst utilise la data preparation :

  • Choisir les données à intégrer dans le périmètre de l’analyse.
  • Identifier les sources dans lesquelles sont captées et/ou stockées ces données.
  • Récupérer des données pour les intégrer dans un environnement d’analyse (tableur, outil de BI…)
  • Normaliser les données
  • Nettoyer les données, en retraitant les données erronées ou aberrantes qui peuvent affecter l’analyse

Outils de Data Preparation

Les équipes data passent le plus clair de leur temps à préparer les données. C’est une aberration quand on sait qu’il existe des outils de dataprep qui permettent de faire d’énormes gains de productivité. Découvrez notre panorama des outils de data preparation.

Les soft skills que doit maîtriser un Data Analyst

La pensée critique

Cette compétence n’est pas propre au métier de data analyst, tout le monde est d’accord. Mais c’est important de la mentionner ici car c’est le genre de compétences qui permet de distinguer les bons data analysts des moins bons.

Qu’est-ce que la pensée critique appliquée à la data analysis ? C’est, par exemple, la capacité à savoir quelles données collecter et comment les processer pour obtenir les réponses aux questions qu’on cherche. Connecter des données ne nécessite pas de pensée critique. Mais savoir quelles données connecter, c’est une autre affaire et c’est sur cette capacité, souvent fondée sur l’intuition, qu’on reconnaît un bon data scientist. La pensée critique, c’est aussi ce qui permet au data analyst :

  • D’imaginer les modèles d’analyse les plus adaptés pour répondre à tel ou tel type de questions
  • D’identifier des patterns derrière et au-delà des données qu’il a sous les yeux

L’écriture et la communication

Le data scientist interprète les données pour aider les décideurs à prendre des décisions et les équipes métier à travailler plus efficacement. Contrairement au data engineer, le data analyst est en contact direct avec les autres parties prenantes de l’entreprise. Il doit savoir se faire comprendre d’elles. Le data analyst doit savoir s’exprimer face à des personnes qui n’ont pas forcément de compétences en analyse data.

Les compétences relationnelles font partie des soft skills du data analyst. Il doit savoir s’exprimer, parler, expliquer, mais aussi écouter (en phase de kick off, le data analyst écoute plus qu’il ne parle). Il doit savoir vulgariser, parler de manière simple et accessible de sujets techniques parfois très ardus.

Un data analyst est amené à rédiger des rapports et des recommandations. Il doit donc aussi savoir écrire. Il doit être bilingue et maîtriser aussi bien la langue des chiffres que celles des mots.

Les capacités communicationnelles sont une compétence fondamentale : vous pouvez être le meilleur analyste du monde, si vous ne savez pas expliquer les résultats de vos analyses et convaincre vos collègues de l’intérêt de vos analyses, vous ne faites pas le job jusqu’au bout.

La résolution de problèmes

Un data analyst est une personne qui trouve des réponses à des questions posées par les équipes métier. Il doit avoir une bonne compréhension des questions posées et des problèmes sous-jacents à résoudre. Il doit être capable de reformuler les questions dans le langage de la data et de l’analyse.

Son rôle est aussi de découvrir des patterns, des tendances et des relations entre données permettant d’amener à des découvertes utiles. La résolution de problèmes est une compétence indissociable de la pensée critique. Il faut être innovant et créatif pour devenir un bon data scientist.

La compréhension du business

Le data scientist ne travaille pas dans les nuages, même s’il utilise certainement beaucoup d’outils cloud. Il travaille au sein d’une entreprise qui évolue dans un secteur spécifique, avec une activité particulière, des parcours clients singuliers.

Le data analyst est partie prenante de son entreprise. Son travail, ses analyses sont au service des finalités business : améliorer la productivité, mieux cibler les clients, réduire les coûts, réduire le churn, augmenter la performance commerciale, etc.

Une bonne compréhension de l’activité et du contexte métier de l’entreprise est absolument indispensable. Un data analyst qui travaille pour une boutique en ligne, par exemple, doit avoir une parfaite compréhension du ecommerce et de ses enjeux. Un data analyst qui travaille pour une entreprise de vente de quincaillerie aux professionnels doit comprendre ce marché et son fonctionnement.

Nous avons fait le tour des principales compétences techniques et « soft » requises pour exercer le métier de Data Analyst. En tant que recruteur, ce sont toutes les compétences que vous devez évaluer. En fonction de votre entreprise et de votre besoin, certaines compétences seront plus critiques que d’autres. Quoi qu’il en soit, prenez le temps de faire le bon choix. Le recrutement d’un data analyst est une étape importante dans la vie d’une entreprise.