L’écosystème Data a beaucoup évolué ces dernières années. Des centaines d’outils ont émergé pour couvrir des besoins de plus en plus spécifiques. Même quand on réalise une veille très régulière, on découvre chaque semaine de nouveaux outils prometteurs.
On a pris le sujet à bras le corps, et on vous a préparé un benchmark complet des outils de la stack data moderne. Type d’outil, origine, modèle économique, réputation sur le marché… chaque solution est présentée dans le détail, sous d’un beau GSheet, facile à exploiter et téléchargeable gratuitement 🙂
Accéder au template gratuitement
Le GSheet est en téléchargement gratuit en bas de l’article, et pour ceux qui veulent avoir un aperçu rapide, on a extrait les principaux acteurs de chaque catégorie ci-dessous. N’hésitez pas à commenter l’article pour suggérer de nouveaux outils, on mettra à jour la ressource de temps en temps.
#1 ELT
Le processus ELT (Extract – Load – Transform) est une amélioration d’un processus existant depuis maintenant plus de 30 ans : l’ETL (Extract – Transform – Load). Avec les outils ELT, on charge (L) avant de transformer (T).
Les outils ELT chargent donc les données brutes directement dans le Data Warehouse cible, au lieu de les déplacer vers un serveur de traitement pour les transformer. Ici, le nettoyage, l’enrichissement et la transformation des données s’effectuent dans le Data Warehouse lui-même. Les données brutes y sont stockées indéfiniment, ce qui permet de multiples transformations et, in fine, les cas d’usage métiers.
Source : Rivery.io
La limite de ces outils réside dans leur complexité : ils impliquent la multiplication de Data Lake s dont la connexion aux solutions métiers est un vrai challenge et nécessite la création de connecteurs sur-mesure.
Nom | Description | Nb employés |
---|---|---|
Fivetran | Fivetran s'est imposée en quelques années comme la solution ELT légère de référence, principalement pour sa simplicité d'utilisation. | 554 |
Airbyte | Airbyte est une solution ELT open source moderne qui connait une grosse dynamique depuis 2020. | 20 |
Stitchdata | StitchData est une solution ELT légère, avec un bon rapport qualité / prix. Racheté par Talend, le leader historique des ETL "traditionnels", en 2018. | 83 |
Matillion | Matillion est une solution ELT complète à destination d'entreprises matures. Une alternative solide à Talend. | 331 |
Funnel | Funnel est une solution ELT moderne packagée pour faciliter la mise en place de reporting marketing cross-sources. | 192 |
Rivery | Rivery est une solution ELT assez complète et plus simple d'utilisation que la plupart de ses concurrents. | 62 |
xPlenty | xPlenty est une solution ELT moderne. Une alternative à Fivetran. | 30 |
#2 Web tracking « first party »
Les solutions de tracking « first party » & « third party » se réfèrent aux types de cookies sur lesquels ces solutions s’appuient.
- Les cookies « first party » sont inscrits entre des pages qui partagent un eTLD+1 (effective top-level domain plus one part), par exemple en naviguant de blog.cartelis.com/article_1 à blog.cartelis.com/article_2.
- Les cookies « third party » en revanche, sont inscrits entre des pages qui ne sont pas issues du même domaine. Ces cookies étant très utilisés pour le retargeting notamment, leur collecte est désormais limitée au consentement des utilisateurs par la directive « ePrivacy » en Europe. Cela entraîne des pertes de données importantes (30-40%), les solutions de tracking de ce type sont donc beaucoup moins précises.
Dans ce contexte, les plateformes de collecte de données « first party » utilisent des cookies définis côté serveur, ce qui leur permet d’être moins affectées par cette perte de données et donc de fournir des données plus précises tout en respectant la vie privée des utilisateurs.
Nom | Description | Nb employés |
---|---|---|
Snowplow | Snowplow est la solution de tracking first party open source de référence. C'est la principale alternative à Google Analytics 360. | 96 |
Keen.io | Keen.io est une solution de web tracking first party très utilisé par des startups qui cherchent une alternative low cost à Segment pour historiser les logs web / mobile. | 23 |
Jitsu | Jitsu est le petit dernier, une solution de tracking open source prometteuse avec plusieurs fonctionnalités très intéressantes. | 5 |
#3 Data Warehouse cloud
Ces solutions sont distribuées en mode SaaS et ce sont donc les éditeurs (les outils ci-dessous) qui ont la charge de la maintenance. Contrairement aux architectures des Data Warehouses traditionnels, ici chaque solution dispose d’une architecture différente mais propose des avantages similaires (par rapport aux architectures traditionnelles) :
- Coûts initiaux & permanents beaucoup plus faibles : Les différents composants requis pour les entrepôts de données traditionnels, sur site, entraînent des dépenses initiales coûteuses et ces solutions prennent la maintenance en charge.
- Rapidité : Les solutions sur le cloud sont nettement plus rapides à déployer, en partie grâce à l’utilisation de l’ELT.
- Flexibilité : Les Data Warehouse Cloud sont conçus pour tenir compte de la diversité des formats et des structures des données volumineuses.
- Évolution : Les ressources élastiques du cloud sont idéales pour l’échelle requise par les grands ensembles de données.
Retrouvez ci-dessous les principaux outils de ce type du marché :
Nom | Description | Nb employés |
---|---|---|
BigQuery | Google Bigquery est le datawarehouse à bas coût de Google. Il est reconnu pour son rapport qualité / prix. | 250000 |
AWS Redshift | Redshift est la solution datawarehouse de l'écocystème AWS. | 95686 |
Snowflake | Snowflake est une solution datawarehouse moderne, qui a connu un gros succès ces dernières années. | 3337 |
Clickhouse | ClickHouse est un système de gestion de base de données OLAP orienté colonnes, rapide et opensource. | 15 |
Firebolt | Firebolt est un cloud datawarehouse qui fournit aux entreprises tech des performances rapides pour une gestion de données à grande échelle. | 117 |
#4 Data transform
La transformation des données est le processus qui consiste à modifier le format, la structure ou les valeurs des données. Les processus tels que l’intégration de données, la migration de données, l’entreposage de données et le traitement de données peuvent tous impliquer une transformation des données.
La transformation des données peut être :
- Constructive (ajout, copie et réplication de données),
- Destructive (suppression de champs et d’enregistrements),
- Esthétique (normalisation des salutations ou des noms de rue)
- Sstructurelle (renommage, déplacement et combinaison de colonnes dans une base de données).
Dans une stack data moderne, les solutions de transformation de données ci-dessous, n’interviennent qu’au moment de la requête (selon le modèle ELT).
Nom | Description | Nb employés |
---|---|---|
DBT | DBT est devenue la solution de référence pour préparer / transformer ses données au dessus de votre datawarehouse. | 121 |
PopSQL | PopSQL est un éditeur SQL moderne et collaboratif. | 5 |
Dataform | Dataform est une solution de préparation / transformation de données très intégrée à l'écosystème Google Cloud. | 2 |
#5 Orchestration de données
L’orchestration des données est le processus qui consiste à prendre des données en silo à partir de plusieurs emplacements de stockage de données, à les combiner et à les organiser, puis à les rendre disponibles pour les outils d’analyse de données. L’orchestration des données permet aux entreprises d’automatiser et de rationaliser la prise de décision basée sur les données.
Les solutions d’orchestration des données permettent d’alimenter de nombreux processus, notamment :
- Le nettoyage, l’organisation et la publication de données dans un entrepôt de données,
- Le calcul de mesures commerciales,
- L’application de règles pour cibler et impliquer les utilisateurs par le biais de campagnes emails,
- La maintenance de l’infrastructure de données
- L’exécution d’une tâche TensorFlow pour entraîner un modèle de machine learning
Nom | Description | Nb employés |
---|---|---|
Airflow | Apache Airflow est la solution d'orchestration de flux de données de référence, pour créer, planifier et surveiller des flux en lignes de commande et via une interface. | 2008 |
Astronomer | Astronomer est une surcouche d'Apache Airflow pour orchestrer une chaine de traitements de données, avec un gros focus sur le monitoring. | 137 |
Flyte | Flyte est une plateforme open source d'automatisation cloud des flux de travail pour les données complexes et les processus de ML à grande échelle. | |
Dagster | Dagster, une bibliothèque open source pour la création de systèmes tels que les processus ETL et les pipelines ML. |
#6 Data science
Les outils de Data science ont qui vise à remédier à ce problème :
- Comme les entreprises ont commencé à collecter de grandes quantités de données provenant de nombreuses sources différentes, il est de plus en plus nécessaire de disposer d’un système unique pour les stocker.
- Rendre les images, les sons et les autres données non structurées facilement accessibles pour entraîner des modèles de machine learning.
Les outils de Data science permettent donc d’extraire des informations exploitables à partir de données brutes afin d’identifier des tendances et des corrélations au sein de celles-ci.
Nom | Description | Nb employés |
---|---|---|
Dataiku | Dataiku est une belle plateforme qui simplifie le travail de préparation de donnnées, et la mise en place de modèles Data Science. | 1808 |
Alteryx | Alteryx est une plateforme qui simplifie le travail de préparation de donnnées, et la mise en place de modèles Data Science. | 1808 |
Datarobot | DataRobot permet de créer et de déployer des modèles data science / IA facilement. | 1421 |
Databricks | Databricks est une plateforme complète en surcouche de votre datawarehouse avec des fonctionnalités Analytics et Data science avancées. | 2395 |
#7 Data Catalog / Gouvernance
Un catalogue de données est un inventaire organisé des actifs de données qui permet aux analystes et aux autres utilisateurs de données de localiser, d’accéder et d’évaluer les données dans un emplacement centralisé pour des utilisations analytiques et commerciales.
Les catalogues de données s’appuient sur les métadonnées pour permettre d’effectuer rapidement des recherches dans l’ensemble de l’écosystème de données d’une organisation, de comprendre les données à leur disposition et de les rendre opérationnelles.
Nom | Description | Nb employés |
---|---|---|
Collibra | Collibra est une solution de data catalog / gouvernance très complète à destination d'entreprises matures. | 855 |
Atlan | Atlan est une une solution de data gouvernance moderne : catalog, quality, lineage, exploration, etc. | 87 |
Castor | Castor est un outil de data catalog / exploration moderne et collaboratif. | 11 |
Ataccama | Ataccama est une une solution de data gouvernance moderne qui permet de gérer vos tables de référence (rôle de MDM). | 267 |
Amundsen | Amundsen est un moteur de recherche de données et de métadonnées open source qui permet d'indexer des ressources de donnée (tables, tableaux de bord, flux, etc...). |
#8 Data activation
Les outils de data activation croisent et synchronisent vos données clients issues de multiples sources, online et offline, afin de les rendre actionnables dans vos outils métiers pour créer des segments d’audience sur-mesure et donc personnaliser au maximum l’expérience client.
On retrouve ici différentes sous-catégories d’outils :
- Data Management Platform
- Solutions Revers ETL
- Customer Data Platform.
Nom | Description | Nb employés |
---|---|---|
Octolis | Octolis est une solution qui permet de croiser des données internes, et de les synchroniser avec des outils marketing. | 9 |
Census | Census est une solution qui permet de synchroniser les données de votre datawarehouse avec des outils marketing. | 30 |
Hightouch | Hightouch est une solution qui permet de synchroniser les données de votre datawarehouse avec des outils marketing. | 29 |
Grouparoo | Grouparoo est une solution reverse ETL open source. Une alternative à Octolis ou Census. | 5 |
Seekwell | Seekwell est un outil d'analyse et de visualisation de donnée basé sur du SQL et qui s'intègre avec Google Sheets, Salesforce, Zendesk et Slack. | 3 |
Keboola | Keboola est une solution collaborative de data management pour croiser et partager des datasets. | 57 |
Syncari | Syncari est une plateforme complète pour croiser et synchroniser des données. | 41 |
#9 Dataviz
Les outils de visualisation de données permettent de créer plus facilement des représentations visuelles de grands ensembles de données. Lorsqu’il s’agit d’ensembles de données comprenant des centaines de milliers ou des millions de points de données, l’automatisation du processus de création d’une visualisation, du moins en partie, facilite considérablement le travail du concepteur.
Ces visualisations de données peuvent ensuite être utilisées à des fins diverses : tableaux de bord, rapports annuels, documents de vente et de marketing, diapositives pour investisseurs, et pratiquement partout où les informations doivent être interprétées immédiatement.
Ces outils permettent de visualiser la data à travers des graphiques ou autres éléments visuels.
Nom | Description | Nb employés |
---|---|---|
Metabase | Metabase est un outil de business Intelligence et de visualisation de données open source avec fonctionnalités SQL. | 31 |
Superset | Superset est un logiciel open source cloud de Datavisualisation capable de gérer des données à l'échelle du pétaoctet. | 2007 |
Mode | Mode est un outil complet d'analyse de données et de reporting pour les professionnels des données et les responsables commerciaux. Mode combine un éditeur SQL cloud, des manuels collaboratifs pour Python et R, des visuels interactifs ainsi que des rapports et tableaux de bord en direct qui peuvent être partagés. | 161 |
Malgré nos efforts pour vous présenter dans le détail quelques dizaines de solutions qui représentent selon nous les catégories principales d’outils de la stack data moderne, difficile d’être exhaustif car il en existe en réalité des centaines.
Pour avoir une idée du dynamisme de l’offre sur ce marché florissant, on vous invite à jeter un coup d’œil à la cartographie du marché des outils Data réalisée par mattturck.com.
Téléchargement de notre benchmark complet des outils qui composent la stack data moderne
Pour accéder à la ressource, il vous suffit de vous inscrire en quelques clics.
Au clic sur le bouton ci-dessous, vous arriverez sur un formulaire d'inscription rapide. Une fois inscrit, il y a un onglet "Ressources" qui apparaîtra dans le menu du haut qui vous permettra d'accéder à l'ensemble des ressources en téléchargement gratuit.
Avec un peu de chance, vous aurez une bonne surprise, il y aura d'autres ressources qui vous seront utiles 😊