Benchmark complet des outils de la stack data moderne

L’écosystème Data a beaucoup évolué ces dernières années. Des centaines d’outils ont émergé pour couvrir des besoins de plus en plus spécifiques. Même quand on réalise une veille très régulière, on découvre chaque semaine de nouveaux outils prometteurs.

On a pris le sujet à bras le corps, et on vous a préparé un benchmark complet des outils de la stack data moderne. Type d’outil, origine, modèle économique, réputation sur le marché… chaque solution est présentée dans le détail, sous d’un beau GSheet, facile à exploiter et téléchargeable gratuitement 🙂

liste outils stack data

Accéder au template gratuitement

Le GSheet est en téléchargement gratuit en bas de l’article, et pour ceux qui veulent avoir un aperçu rapide, on a extrait les principaux acteurs de chaque catégorie ci-dessous. N’hésitez pas à commenter l’article pour suggérer de nouveaux outils, on mettra à jour la ressource de temps en temps.

#1 ELT

Le processus ELT (Extract – Load – Transform) est une amélioration d’un processus existant depuis maintenant plus de 30 ans : l’ETL (Extract – Transform – Load). Avec les outils ELT, on charge (L) avant de transformer (T).

Les outils ELT chargent donc les données brutes directement dans le Data Warehouse cible, au lieu de les déplacer vers un serveur de traitement pour les transformer. Ici, le nettoyage, l’enrichissement et la transformation des données s’effectuent dans le Data Warehouse lui-même. Les données brutes y sont stockées indéfiniment, ce qui permet de multiples transformations et, in fine, les cas d’usage métiers.

ETL vs ELT: What's the Difference? Rivery ETL Tools

Source : Rivery.io

La limite de ces outils réside dans leur complexité : ils impliquent la multiplication de Data Lake s dont la connexion aux solutions métiers est un vrai challenge et nécessite la création de connecteurs sur-mesure.

NomDescriptionNb employés
FivetranFivetran s'est imposée en quelques années comme la solution ELT légère de référence, principalement pour sa simplicité d'utilisation.554
AirbyteAirbyte est une solution ELT open source moderne qui connait une grosse dynamique depuis 2020.20
StitchdataStitchData est une solution ELT légère, avec un bon rapport qualité / prix. Racheté par Talend, le leader historique des ETL "traditionnels", en 2018.83
MatillionMatillion est une solution ELT complète à destination d'entreprises matures. Une alternative solide à Talend.331
FunnelFunnel est une solution ELT moderne packagée pour faciliter la mise en place de reporting marketing cross-sources.192
RiveryRivery est une solution ELT assez complète et plus simple d'utilisation que la plupart de ses concurrents.62
xPlentyxPlenty est une solution ELT moderne. Une alternative à Fivetran.30

#2 Web tracking « first party »

Les solutions de tracking « first party » & « third party » se réfèrent aux types de cookies sur lesquels ces solutions s’appuient.

  • Les cookies « first party » sont inscrits entre des pages qui partagent un eTLD+1 (effective top-level domain plus one part), par exemple en naviguant de blog.cartelis.com/article_1 à blog.cartelis.com/article_2.
  • Les cookies « third party » en revanche, sont inscrits entre des pages qui ne sont pas issues du même domaine. Ces cookies étant très utilisés pour le retargeting notamment, leur collecte est désormais limitée au consentement des utilisateurs par la directive « ePrivacy » en Europe. Cela entraîne des pertes de données importantes (30-40%), les solutions de tracking de ce type sont donc beaucoup moins précises.

Dans ce contexte, les plateformes de collecte de données « first party » utilisent des cookies définis côté serveur, ce qui leur permet d’être moins affectées par cette perte de données et donc de fournir des données plus précises tout en respectant la vie privée des utilisateurs.

NomDescriptionNb employés
SnowplowSnowplow est la solution de tracking first party open source de référence. C'est la principale alternative à Google Analytics 360.96
Keen.ioKeen.io est une solution de web tracking first party très utilisé par des startups qui cherchent une alternative low cost à Segment pour historiser les logs web / mobile.23
JitsuJitsu est le petit dernier, une solution de tracking open source prometteuse avec plusieurs fonctionnalités très intéressantes.5

#3 Data Warehouse cloud

Ces solutions sont distribuées en mode SaaS et ce sont donc les éditeurs (les outils ci-dessous) qui ont la charge de la maintenance. Contrairement aux architectures des Data Warehouses traditionnels, ici chaque solution dispose d’une architecture différente mais propose des avantages similaires (par rapport aux architectures traditionnelles) :

  • Coûts initiaux & permanents beaucoup plus faibles : Les différents composants requis pour les entrepôts de données traditionnels, sur site, entraînent des dépenses initiales coûteuses et ces solutions prennent la maintenance en charge.
  • Rapidité : Les solutions sur le cloud sont nettement plus rapides à déployer, en partie grâce à l’utilisation de l’ELT.
  • Flexibilité : Les Data Warehouse Cloud sont conçus pour tenir compte de la diversité des formats et des structures des données volumineuses.
  • Évolution : Les ressources élastiques du cloud sont idéales pour l’échelle requise par les grands ensembles de données.

Retrouvez ci-dessous les principaux outils de ce type du marché :

NomDescriptionNb employés
BigQueryGoogle Bigquery est le datawarehouse à bas coût de Google. Il est reconnu pour son rapport qualité / prix.250000
AWS RedshiftRedshift est la solution datawarehouse de l'écocystème AWS. 95686
SnowflakeSnowflake est une solution datawarehouse moderne, qui a connu un gros succès ces dernières années.3337
ClickhouseClickHouse est un système de gestion de base de données OLAP orienté colonnes, rapide et opensource. 15
FireboltFirebolt est un cloud datawarehouse qui fournit aux entreprises tech des performances rapides pour une gestion de données à grande échelle.117

#4 Data transform

La transformation des données est le processus qui consiste à modifier le format, la structure ou les valeurs des données. Les processus tels que l’intégration de données, la migration de données, l’entreposage de données et le traitement de données peuvent tous impliquer une transformation des données.

La transformation des données peut être :

  • Constructive (ajout, copie et réplication de données),
  • Destructive (suppression de champs et d’enregistrements),
  • Esthétique (normalisation des salutations ou des noms de rue)
  • Sstructurelle (renommage, déplacement et combinaison de colonnes dans une base de données).

Dans une stack data moderne, les solutions de transformation de données ci-dessous, n’interviennent qu’au moment de la requête (selon le modèle ELT).

NomDescriptionNb employés
DBTDBT est devenue la solution de référence pour préparer / transformer ses données au dessus de votre datawarehouse.121
PopSQLPopSQL est un éditeur SQL moderne et collaboratif.5
DataformDataform est une solution de préparation / transformation de données très intégrée à l'écosystème Google Cloud.2

#5 Orchestration de données

L’orchestration des données est le processus qui consiste à prendre des données en silo à partir de plusieurs emplacements de stockage de données, à les combiner et à les organiser, puis à les rendre disponibles pour les outils d’analyse de données. L’orchestration des données permet aux entreprises d’automatiser et de rationaliser la prise de décision basée sur les données.

Les solutions d’orchestration des données permettent d’alimenter de nombreux processus, notamment :

  • Le nettoyage, l’organisation et la publication de données dans un entrepôt de données,
  • Le calcul de mesures commerciales,
  • L’application de règles pour cibler et impliquer les utilisateurs par le biais de campagnes emails,
  • La maintenance de l’infrastructure de données
  • L’exécution d’une tâche TensorFlow pour entraîner un modèle de machine learning
NomDescriptionNb employés
AirflowApache Airflow est la solution d'orchestration de flux de données de référence, pour créer, planifier et surveiller des flux en lignes de commande et via une interface.2008
AstronomerAstronomer est une surcouche d'Apache Airflow pour orchestrer une chaine de traitements de données, avec un gros focus sur le monitoring.137
FlyteFlyte est une plateforme open source d'automatisation cloud des flux de travail pour les données complexes et les processus de ML à grande échelle.
DagsterDagster, une bibliothèque open source pour la création de systèmes tels que les processus ETL et les pipelines ML.

#6 Data science

Les outils de Data science ont qui vise à remédier à ce problème :

  • Comme les entreprises ont commencé à collecter de grandes quantités de données provenant de nombreuses sources différentes, il est de plus en plus nécessaire de disposer d’un système unique pour les stocker.
  • Rendre les images, les sons et les autres données non structurées facilement accessibles pour entraîner des modèles de machine learning.

Les outils de Data science permettent donc d’extraire des informations exploitables à partir de données brutes afin d’identifier des tendances et des corrélations au sein de celles-ci.

NomDescriptionNb employés
DataikuDataiku est une belle plateforme qui simplifie le travail de préparation de donnnées, et la mise en place de modèles Data Science.1808
AlteryxAlteryx est une plateforme qui simplifie le travail de préparation de donnnées, et la mise en place de modèles Data Science.1808
DatarobotDataRobot permet de créer et de déployer des modèles data science / IA facilement.1421
DatabricksDatabricks est une plateforme complète en surcouche de votre datawarehouse avec des fonctionnalités Analytics et Data science avancées.2395

#7 Data Catalog / Gouvernance

Un catalogue de données est un inventaire organisé des actifs de données qui permet aux analystes et aux autres utilisateurs de données de localiser, d’accéder et d’évaluer les données dans un emplacement centralisé pour des utilisations analytiques et commerciales.

Les catalogues de données s’appuient sur les métadonnées pour permettre d’effectuer rapidement des recherches dans l’ensemble de l’écosystème de données d’une organisation, de comprendre les données à leur disposition et de les rendre opérationnelles.

NomDescriptionNb employés
CollibraCollibra est une solution de data catalog / gouvernance très complète à destination d'entreprises matures.855
AtlanAtlan est une une solution de data gouvernance moderne : catalog, quality, lineage, exploration, etc.87
CastorCastor est un outil de data catalog / exploration moderne et collaboratif.11
AtaccamaAtaccama est une une solution de data gouvernance moderne qui permet de gérer vos tables de référence (rôle de MDM).267
AmundsenAmundsen est un moteur de recherche de données et de métadonnées open source qui permet d'indexer des ressources de donnée (tables, tableaux de bord, flux, etc...).

#8 Data activation

Les outils de data activation croisent et synchronisent vos données clients issues de multiples sources, online et offline, afin de les rendre actionnables dans vos outils métiers pour créer des segments d’audience sur-mesure et donc personnaliser au maximum l’expérience client.

On retrouve ici différentes sous-catégories d’outils :

  • Data Management Platform
  • Solutions Revers ETL
  • Customer Data Platform.
NomDescriptionNb employés
OctolisOctolis est une solution qui permet de croiser des données internes, et de les synchroniser avec des outils marketing.9
CensusCensus est une solution qui permet de synchroniser les données de votre datawarehouse avec des outils marketing.30
HightouchHightouch est une solution qui permet de synchroniser les données de votre datawarehouse avec des outils marketing.29
GrouparooGrouparoo est une solution reverse ETL open source. Une alternative à Octolis ou Census.5
SeekwellSeekwell est un outil d'analyse et de visualisation de donnée basé sur du SQL et qui s'intègre avec Google Sheets, Salesforce, Zendesk et Slack.3
KeboolaKeboola est une solution collaborative de data management pour croiser et partager des datasets.57
SyncariSyncari est une plateforme complète pour croiser et synchroniser des données.41

#9 Dataviz

Les outils de visualisation de données permettent de créer plus facilement des représentations visuelles de grands ensembles de données. Lorsqu’il s’agit d’ensembles de données comprenant des centaines de milliers ou des millions de points de données, l’automatisation du processus de création d’une visualisation, du moins en partie, facilite considérablement le travail du concepteur.

Ces visualisations de données peuvent ensuite être utilisées à des fins diverses : tableaux de bord, rapports annuels, documents de vente et de marketing, diapositives pour investisseurs, et pratiquement partout où les informations doivent être interprétées immédiatement.

Ces outils permettent de visualiser la data à travers des graphiques ou autres éléments visuels.

NomDescriptionNb employés
MetabaseMetabase est un outil de business Intelligence et de visualisation de données open source avec fonctionnalités SQL.31
SupersetSuperset est un logiciel open source cloud de Datavisualisation capable de gérer des données à l'échelle du pétaoctet.2007
ModeMode est un outil complet d'analyse de données et de reporting pour les professionnels des données et les responsables commerciaux. Mode combine un éditeur SQL cloud, des manuels collaboratifs pour Python et R, des visuels interactifs ainsi que des rapports et tableaux de bord en direct qui peuvent être partagés.161

Malgré nos efforts pour vous présenter dans le détail quelques dizaines de solutions qui représentent selon nous les catégories principales d’outils de la stack data moderne, difficile d’être exhaustif car il en existe en réalité des centaines.

Pour avoir une idée du dynamisme de l’offre sur ce marché florissant, on vous invite à jeter un coup d’œil à la cartographie du marché des outils Data réalisée par mattturck.com.

Téléchargement de notre benchmark complet des outils qui composent la stack data moderne

Pour accéder à la ressource, il vous suffit de vous inscrire en quelques clics.
Au clic sur le bouton ci-dessous, vous arriverez sur un formulaire d'inscription rapide. Une fois inscrit, il y a un onglet "Ressources" qui apparaîtra dans le menu du haut qui vous permettra d'accéder à l'ensemble des ressources en téléchargement gratuit. Avec un peu de chance, vous aurez une bonne surprise, il y aura d'autres ressources qui vous seront utiles 😊

👉 Je m'inscris pour télécharger la ressource