Panorama des outils d’intégration de données

D’après statistica, en 2020 une organisation utilise en moyenne 110 applications Saas, contre “seulement” 8 en 2015. Si le recours de plus en plus fréquent à ces outils a considérablement augmenté les performances opérationnelle des organisations, elle s’est en revanche accompagnée de la création de “silos de données” qui freinent la mise en place de cas d’usage nécessitant le recours à plusieurs outils.

Pour répondre à ce nouvel enjeu, de nouveaux outils d’intégration de données se développent : les iPaaS, les CDP, les ELT mais également les Reverse ETL. Quel est le positionnement de chacun de ces outils, comment les comparer et surtout comment faire le bon choix, on vous dit out dans cet article !

Les enjeux autour de l’intégration des données

Intégration de données : définition

On appelle intégration des données le processus de centralisation de l’information entre bases de données (internes ou externes). Il peut s’agir des datawarehouses, ainsi que des outils et systèmes tiers qui génèrent et stockent de la donnée. L’objectif est d’avoir une vue unique de données provenant de plusieurs sources. Les outils d’intégration utilisent tous la même technologie sous-jacente : les API.

Prenons l’exemple d’une application mobile utilisant les outils suivants pour gérer son activité :

  • Facebook et Google Ads afin d’acquérir de nouveaux utilisateurs
  • Google Analytics pour suivre le trafic sur son site web et sur l’application mobile
  • Une base de données MySQL pour stocker les informations générales
  • Marketo pour l’envoi d’emails marketing et la gestion des prospects
  • Zendesk pour le support client
  • Netsuite pour la comptabilité et le suivi financier

Chacune de ces applications contient un silo d’informations sur les opérations de l’entreprise. Pour obtenir une vue à 360 degrés de son activité, ces données doivent être regroupées en un seul endroit. C’est ce processus que l’on appelle communément « intégration des données ».

Les bénéfices d’un processus d’intégration de données solide

Tout d’abord, l’intégration des données permet d’améliorer la collaboration et l’unification des systèmes au sein d’une société. En effet, les employés de différents départements ont de plus en plus besoin d’accéder aux données de l’entreprise, qu’elles concernent les clients ou les produits. Une source unique et sécurisée de données facilite l’entraide entre équipes et booste l’efficacité de l’entreprise.

De plus, un processus d’intégration solide permet de faire gagner du temps aux équipes IT chargées de développement. Les employés n’ont alors plus besoin d’établir des connexions eux-mêmes évitent également de refaire tous les rapports manuellement, les données peuvent être mises à jour en temps réel.

Enfin, l’intégration assure des données de plus grande qualité. Au fur et à mesure que les données sont intégrées dans le système centralisé, les problèmes de qualité sont identifiés. Les améliorations nécessaires sont mises en œuvre plus rapidement que lorsque les données viennent de plusieurs sources. Les données sont donc plus fiables.

Quels outils pour intégrer vos données ?

Des solutions ont été créées pour résoudre le problème d’intégration des logiciels et des applications fonctionnant de manière isolée les unes des autres, ne disposant pas d’un flux de communication automatique. Il existe différents types d’intégration que l’on peut regrouper sous des familles d’outils :

  • iPaaS (Integration Platform as a Service) : les données circulent directement entre les applications Cloud, avec peu ou pas d’intégration dans l’iPaaS comme Zapier ou Integromat.
  • CDP (Customer Data Platform) : les données circulent entre les applications Cloud via une plateforme hub centrale qui permet des transformations modérées de la data.
  • ETL (Extract, Transform and Load) : les données sont transférées des applications Cloud vers un datawarehouse, en passant par une couche de transformation robuste intégrée à l’outil.
  • ELT (Extract, Load, and Transform) : les données passent des applications Cloud à un datawarehouse directement, et la transformation des données a lieu dans le datawarehouse via SQL. La principale différence ici est qu’avec l’ETL, la transformation a lieu avant le chargement des données dans l’entrepôt, alors qu’avec l’ELT, la transformation a lieu après.
  • Reverse ETL : les données passent d’un datawarehouse à des applications Cloud, à l’inverse du processus ETL, on peut ici citer Octolis en France ou encore Census aux US.
    Comme le montre le schéma ci-dessous, le recours à ses différentes solutions a suivi l’évolution de l’organisation du SI clients. Cette organisation s’est structurée d’abord principalement autour du couple CRM marketing- iPaas, puis au travers des CDP et enfin aujourd’hui la stack data moderne bascule un nouveau couple : Datawarehouse Cloud & Reverse ETL!


L’évolution des outils d’intégration de données depuis 2010

Les iPaas comme Zapier / Integromat

Les iPaas (Integration Platform as a Service) sont des plateformes technologiques qui relient les différents systèmes utilisés par une entreprise, permettant l’intégration et le partage des données entre eux, offrant ainsi une vision unique. L’iPaas fonctionne comme un tuyau d’un outil A vers un outil B. L’inconvénient majeur réside donc dans la difficulté d’intégrer plusieurs sources.
Une plateforme iPaas « en tant que service » fournit un cadre et un environnement dans le Cloud.
L’un des avantages principaux des iPaaS est le fait qu’ils offrent une interface visuelle pour construire des intégrations, permettant aux équipes commerciales de prendre le contrôle de leurs besoins d’automatisation des flux de travail. Grâce aux ‘iPaaS, des concepts de codage sont transformés en une interface utilisateur facile à manipuler, même pour les profils non techniques.

Parmi les solutions iPaas les plus populaires aujourd’hui, nous retrouvons Tray et Workato, plutôt ciblées pour les grandes entreprises, et Zapier, Integromat et Automate.io, plutôt destinées aux PME.

  • Avantages
    • Simplicité d’utilisation de l’interface
    • Nombre de connecteurs disponibles
  • Inconvénients
    • Prix élevé : Bloquant pour de gros volumes de données
    • Difficulté à croiser les données de plusieurs sources

Les CDP comme Segment ou Tealium

Les Customer Data Platform collectent et rassemblent les données provenant de différentes sources et les envoient vers différentes destinations.
Côté métier, la CDP permet aux équipes marketing de créer des segments basés sur le comportement et les caractéristiques des utilisateurs, et de synchroniser ces segments avec des outils tiers pour offrir des expériences personnalisées. Le tout sans dépendre des équipes techniques d’ingénierie de données.

Sur le marché, on retrouve des CDP horizontales telles que Segment, mParticle, Lytics et Tealium, ainsi qu’à des CDP verticales telles que Amperity (retail et hôtellerie) et Zaius (ecommerce), qui s’attachent à répondre aux besoins de secteurs spécifiques.

  • Avantages
    • Personnalisation forte
    • Manipulation des données facile par les équipes métiers
  • Inconvénients
    • Déplacements de données selon modèle prédéfini
    • Fournisseurs de logiciels pas toujours compatibles

Les outils ETL / ELT comme Talend ou Fivetran

Dans la famille d’outils ETL, les données sont d’abord extraites des bases de données et sources tierces (principalement des outils SaaS pour les ventes, le marketing et le support), puis transformées pour répondre aux besoins des analystes, et enfin, chargées dans un datawarehouse.

La transformation des données est particulièrement gourmande en ressources et en temps, ce qui a un impact significatif sur le délai entre l’extraction et le chargement des données.

Cependant, grâce aux progrès des technologies de l’écosystème data, l’ETL est en train d’être remplacé par l’ELT, plus rapide et plus flexible. On peut dire que l’ELT est l’approche moderne de l’ETL, qui est en grande partie alimentée par les datawarehouses Cloud tels que Redshift, Snowflake et BigQuery. Devenus extrêmement rapides et fiables, ces solutions permettent d’effectuer la transformation au sein même du datawarehouse.

Pour les segments des ELT et ETL, les principaux outils du marché sont Talend, Airbyte et Fivetran.

  • Avantages
    • Souplesse
    • Fonctionnement en « batch » ou « unitaire »
  • Inconvénients
    • Connecteurs sortants généralement limités aux base de données
    • Utilisation réservée à des profils assez techniques

Les outils d’activation de données ou reverse ETL comme Octolis

L’outil de Reverse ETL s’est construit en partant du constat que les équipes IT n’arrivent pas à répondre efficacement aux demandes d’extraction de données des départements sales, marketing ou encore service client. Le manque d’intégration des données limite énormément l’utilisation des outils métiers de la stack marketing.

Tandis que l’ETL que nous avons vu précédemment fait « monter » les données sources dans le datawarehouse, le Reverse ETL fait « redescendre » ces données dans les applications métiers. Le Reverse ETL synchronise les données du datawarehouse dans les outils d’activation, tel que le montre le schéma :

Source : La stack data moderne, Octolis

Un outil de Reverse ETL comme Octolis, l’outil français de référence prend en charge :

  • L’extraction de données d’un datawarehouse à un rythme régulier
  • Le chargement de ces données dans les outils de vente, de marketing et d’analyse
  • Le déclenchement d’une API arbitraire chaque fois que les données changent

Les équipes IT gèrent déjà le datawarehouse comme la source principale de données clients, qu’ils gardent propre et cohérente à des fins d’analyse. Le transfert de ces données vers les applications Cloud, à partir de la même source, est donc une évidence. Les équipes IT peuvent enfin gérer un pipeline de données unique pour que les équipes métiers puissent analyser et agir sur les données.

Les équipes de vente, de marketing et d’analyse vont maintenant pouvoir être en mesure d’analyser et d’agir sur des données qui étaient jusque-là compliquées à avoir.

  • Points forts des outils Reverse ETL
    • Croisement de plusieurs sources
    • Fonctionnement en « batch » ou « unitaire »
    • Simplicité d’usage pour des profils marketing ou data analysts

Les Reverse ETL constituent une nouvelle famille de logiciels d’intégration de données souple et qui a vocation à devenir une pièce fondamentale de la stack data moderne.