Les meilleurs outils de Data Preparation – Famille d’outils, fonctionnalités & exemples

Les équipes data passent le plus clair de leur temps à préparer les données. J’ai vu passer une étude qui montre que les Data Scientists consacrent en moyenne 80% de leur temps à préparer / nettoyer les données. C’est une aberration quand on sait qu’il existe des outils de dataprep qui permettent de faire d’énormes gains de productivité.

Il y a plusieurs manières de faire de la dataprep, du SQL custom aux outils no code en passant par les outils spécialisés et les outils de BI intégrant des fonctionnalités de dataprep.

Il n’est pas facile de faire son choix.

Avant de choisir une solution, il est important de prendre le temps de comprendre le marché, le positionnement des différentes solutions, les différences en matière de périmètre fonctionnel, etc.

C’est l’objectif de cet article.

Panorama des différents types d’outils de Data Preparation

Voici un panorama des différentes familles d’outils qui peuvent aider dans la préparation des données.

CatégorieDescriptionExemples de solutions
ETLLes solutions ETL ont toutes des fonctionnalités de data prep (le T de ETL signifie "Transform").Talend, Xplenty, Skyvia
SQL / PythonLes langages de bases de données comme SQL ou Python permettent de faire de la data prep, modulo de bonnes compétences techniques.DBT, Pandas, AWS Glue
Outils de dataprep spécialisésSolutions spécialisées dans la vérification et le nettoyage d'un type particulier de données : les adresses emails, les adresses postales, les données CRM...Emailable (emails), Egon (adresses postales), Cloudingo (données Salesforce)...
Dataprep intégrée dans des outils de BICertains outils de BI intègrent des fonctionnalités/modules de data prep.PowerBI, Tableau Prep, ToucanToco...
Dataprep intégrée dans des outils DataOpsLes outils de DataOps sont nombreux à intégrer des fonctionnalités de data prep : nettoyage, normalisation, déduplication, enrichissement...Octolis, Y42, Keboola, Weld...
Dataprep intégrée dans des outils de Data ScienceLa préparation des données peut être réalisée dans les outils de Data Science.Dataiku, Alteryx, Rapidminer...

Les fonctionnalités proposées par les outils de dataprep

Pour choisir le bon outil, il faut avoir une bonne compréhension des fonctionnalités proposées par les outils de dataprep. Il y a 4 fonctionnalités clés des outils de data preparation.

#1 Accès aux données et exploration à partir de n’importe quel set de données

L’accès aux données désigne la capacité de votre outil de dataprep à accéder à l’ensemble des sources de données que constitue votre système d’information. Quelles sont les sources que vous pouvez connecter à l’outil de dataprep ? Quels sont les formats de données gérés ? Quid de l’API ? Quid des connecteurs proposés par l’éditeur ? Ce sont autant de questions à vous poser lors de votre analyse des outils du marché.

Il faut que vous choisissiez un outil dans lequel vous pouvez intégrer facilement les données en provenance de vos différentes sources, sans limitations et indépendamment de l’endroit où sont stockées ces données. Vous avez des fichiers Excel, des fichiers CSV, des documents Word, un entrepôt de données SQL, des applications cloud, des systèmes opérationnels (CRM, marketing automation, ERP) ? Assurez-vous de pouvoir les importer dans l’outil de dataprep.

L’étape suivante consiste à explorer les données collectées pour mieux comprendre ce qu’elles contiennent et ce qu’il va falloir faire pour préparer les données en vue des cas d’usage cibles. Les données sont « profilées » : identification des patterns, de la distribution des données, des relations entre les variables et les attributs, des anomalies, des valeurs aberrantes ou manquantes, etc. L’outil de data prep doit permettre un travail exploratoire sur chaque data set.

#2 Nettoyage des données

Les outils de dataprep proposent ensuite des fonctionnalités pour nettoyer les données (data cleansing). Le nettoyage des données est indispensable pour disposer de data sets fiables, valides et exploitables.

Le nettoyage des données regroupe un certain nombre d’opérations : la suppression des valeurs aberrantes, la vérification de l’orthographe, la correction des erreurs de saisie, la standardisation des cases, l’identification et le marquage des cellules vides, la normalisation des formats (les dates, par exemple), l’élimination des données manquantes, la suppression ou la fusion des données dupliquées, le masquage des informations sensibles ou confidentielles…

Un template à télécharger pour cleaner vos données clients

Nous avons conçu un guide complet sur le nettoyage d’une base clients, les traitements à opérer et les différentes méthodes de nettoyage. Cerise sur le gâteau, on vous offre un template Excel pour nettoyer facilement un petit fichier clients 🙂

template nettoyage donnees clients

#3 Enrichissement des données

L’enrichissement des données est la troisième fonctionnalité clé des outils de dataprep. Enrichir les données consiste à améliorer le taux de complétude de la base de données (les cellules vides) et/ou à ajouter de nouveaux champs. L’enrichissement des données permet ensuite de mieux segmenter et personnaliser les campagnes/scénarios marketing ou les actions commerciales. Si l’enrichissement des données est si important, c’est que la personnalisation et le ciblage sont des clés de performance en marketing-ventes. Plus vous avez d’informations sur vos clients ou contacts, mieux c’est !

L’enrichissement de données peut s’effectuer de deux manières complémentaires :

  • A partir de sources de données internes.
  • A partir de sources de données externes : fournisseurs de données spécialisés, bases de données publiques, LinkedIn…

L’enrichissement des données améliore la valeur et le potentiel d’activation de vos données.

#4 Export des données

Les données, une fois préparées, doivent être exportées dans les outils de destinatation : outils d’activation, outils d’analyse, entrepôt de données, CDP…Les capacités d’export des données sont un facteur discriminant dans le choix d’un outil de data preparation.

Gardez le contrôle de vos données clients

Le contrôle des données devient un enjeu clé pour les entreprises. Découvrez pourquoi vous ne devez pas stocker vos données dans vos logiciels (CRM, Marketing Automation, ERP…), mais dans une base de données indépendante. On vous explique tout dans notre guide complet sur le contrôle des données.

Les principaux critères différenciants

Voici quelques critères à prendre en compte dans le choix de votre outil de dataprep :

  • Le niveau de technicité requis. Il existe des outils no code qui permettent de procéder aux opérations de dataprep sans savoir programmer. A l’inverse, certains outils sont destinés aux utilisateurs maîtrisant parfaitement le code (le langage SQL notamment). Entre les deux, on trouve toute une série d’outils nécessitant quelques connaissances en code. Ce sont outils « low code », dont l’utilisation nécessite une bonne collaboration entre les équipes IT et métier.
  • La vitesse de traitement. On distingue classiquement les outils qui redistribuent les données préparées en temps réel (real time) et ceux qui redistribuent les données préparées toutes les X minutes/heures (batch processing). Dans certains secteurs, le temps réel est un réel besoin. Dans beaucoup d’autres, le batch processing est suffisant.
  • Le nombre de recettes packagées. Une recette est un ensemble de traitements séquencés réalisés sur un set de données. Les outils de dataprep proposent des recettes packagées qui permettent de gagner du temps.
  • Le prix. Certains outils de dataprep « self service » proposent des offres gratuites qui, si vos cas d’usage sont basiques, peuvent faire l’affaire. Les outils de dataprep les plus évolués peuvent coûter jusqu’à 100 000 euros par an.

Les meilleurs outils de data preparation

Les outils de dataprep self service, testables rapidement

Les outils de dataprep self service sont des solutions légères, faciles à prendre en main et conçues pour les équipes métier/business. Il n’y a pas besoin d’être technophile pour les utiliser. Ces outils ont aussi l’avantage de proposer des tarifs très abordables. Nous en recommandons 3 : Tye, Paxada et InfogixData360.

NomDescriptionPricing
TyeTye est un logiciel de nettoyage et d’enrichissement de données conçu pour les PME, avec un focus sur le traitement des listes d’emails. A partir de son interface intuitive, vous pouvez identifier en un coup d’oeil les données erronées ou dupliquées. 0,05 à 0,24 par set de données
PaxataDataRobot (ex Paxata) est un outil de dataprep self service utilisable à la fois par les équipes IT et les novices. Il propose une interface user-friendly permettant d’explorer, de profiler et de transformer de manière visuelle des sets de données.Basé sur le volume
InfogixData360Infogix Data 360 propose une suite de logiciels couvrant toutes les étapes du Data Management, de la connexion des données à leur activation, en passant par leur vérification et leur enrichissement. Basé sur le volume

Les outils de dataprep pour les grandes entreprises

Les grandes entreprises ont souvent des besoins avancés en dataprep, étant donné la quantité de données à gérer, leur diversité et la complexité des écosystèmes data. Certaines solutions de dataprep sont conçues pour les grandes entreprises. Elles proposent des fonctionnalités de dataprep avancées et ont souvent un périmètre fonctionnel qui déborde la préparation des données. Ce sont, sans surprise, des solutions très coûteuses.

NomDescriptionPricing
DataLadderData Ladder à l’avantage d’être à la fois très complet et relativement simple d’utilisation. Pas besoin d’être un data scientist pour profiter de ses principales fonctionnalités, l’outil est no code. Data Ladder consolide, nettoie, profile et déduplique vos données.Les tarifs sont calculés en fonction du volume de data records
AltairMonarchAltaire Monarch propose plus de 80 fonctionnalités préconstruites pour nettoyer et préparer les données de votre écosystème. Monarch gère aussi bien les données structurées que non-structurées : PDFs, spreadsheets, fichiers textes. L’outil se connecte à toutes vos solutions cloud et Big Data. L’interface est très simple d’utilisation, sans code, click-based. A partir de 1995$ par utilisateur et par mois
TamrUnifyTamr est un outil de préparation de données basé sur l'apprentissage automatique. Il est utilisé pour le mélange et la transformation des données à l'échelle de l’entreprise.Le procédé utilise des algorithmes et l'apprentissage automatique.Varie en fonction de la taille de la base de données

Les outils de dataprep spécialisés sur un sujet spécifique

Si vos besoins de dataprep se limitent à vouloir nettoyer et normaliser des adresses emails, il n’est pas sûr que vous ayez (tout de suite) besoin d’investir dans une solution de dataprep avancée. Il existe sur le marché de bonnes solutions spécialisées dans la préparation de données spécifiques : les adresses emails, les adresses postales, les données Salesforce.

NomDescriptionPricing
EmailableEmailable est une solution conçue pour vérifier et nettoyer vos listes d’emails avec pour finalité l’amélioration de la performance de vos campagnes et scénarios. Emailable supprime les adresses erronnées et peut valider les adresses emails via ses APIs/partenaires. Solution assez compétitive, aux prix abordables, Emailable propose une interface intuitive qui ravira les profils marketers.À partir de 30€
EgonDisponible en SaaS par abonnement et en version On-Premise, Egon est une solution pour vérifier et nettoyer les adresses postales. Elle gère plus de 200 pays et offre la possibilité de vérifier les adresses au moment de la saisie (via les APIs) ou en batch sur une liste d’adresses. Mais ce n’est pas tout, vous pouvez aussi utiliser Egon pour la validation des numéros de téléphone et la validation des adresses emails.0.02$ par set de donnée
CloudingoSi vous utililisez Salesforce, cette solution est faite pour vous. Cloudingo est spécialisé dans le nettoyage et la déduplication des données Salesforce. C’est une solution de référence pour préparer des données Salesforce, les dédupliquer, les enrichir, les normaliser, supprimer les données inexactes, invalides, inconsistantes. Varie en fonction de la taille de la base de données

Les outils de dataprep intégrés dans un outil de Business Intelligence (BI)

Les solutions de Business Intelligence leaders du marché proposent toutes des fonctions de dataprep. C’est le cas, notamment, de Power BI, de Tableau ou de Dataiku. Si vous envisagez d’investir dans un outil de BI, vous pourrez l’utiliser pour préparer vos données.

NomDescriptionPricing
MicrosoftpowerBIMicrosoft Power BI est l’une des solutions de Business Intelligence leaders du marché. Elle permet de connecter n’importe quelles sources de données pour produire des dispositifs de reporting et faire de la data visualisation. Power BI offre également des fonctions avancées de data preparation.à partir de $4,995 par mois
TableauprepTableau Prep est la solution de data preparation proposée par Tableau, l’un des principaux concurrents de Power BI. Beaucoup plus abordable que Power BI, le module Tableau Prep vous permet de consolider, dédupliquer et nettoyer les données que vous utiliserez pour faire vos analyses dans Tableau. 70$ par mois
DataikuDataiku permet aux codeurs et aux non-codeurs de construire facilement des pipelines de données avec des ensembles de données.Connectez, nettoyez et préparez les données pour les projets d'analyse et d'apprentissage automatique à votre échelle. Dataiku offre une interface visuelle facile à utiliser qui accélère considérablement la préparation des données.Version gratuite disponible
AlteryxAlteryx permet d'aider les utilisateurs à automatiser le travail manuel de leur gestion de données ce qui rend le processus de préparation des données beaucoup plus simple.La plateforme fournit les résultats de vos analyses de données à plus de 70 sources, dont SQL, Oracle, XML, Spark, Microsoft Excel, PDF, etc.5195$ par utilisateur par mois
TrifactaOutil utilisé par les analystes de données et les organisations afin d'explorer, de transformer et d'intégrer leurs ensembles de données non structurées.Il structure, nettoie, enrichit et valide les données.Trifacta suggère automatiquement des transformations et des agrégations sur la base d'algorithmes d'apprentissage automatique.419$ par mois
DatameerDatameer propose une modélisation de données pour les analystes ayant tous les niveaux de compétences SQLCela permet de transformer et modéliser les données directement dans leurs bases de données.Gratuit

Les outils de Data Ops

Les outils de Data Ops sont des solutions sur l’étagère tout-en-un pour gérer les données de l’entreprise au service du business. Un outil de Data Ops permet, depuis une interface simple, de connecter l’ensemble des sources de données, de transformer les données et de les redistribuer sous forme d’agrégats aux outils d’activation et aux outils de BI. La transformation inclut le nettoyage des données, leur normalisation, leur consolidation, leur enrichissement et la création d’agrégats/d’audience à des fins d’activation ou d’analyse. Les outils de Data Ops s’intègrent dans une architecture IT de type stack data moderne.

NomDescriptionPricing
OctolisOctolis est un outil de préparation de données qui permet de connecter toutes les sources de données, de les combiner, d'effectuer des calculs de base ou des calculs basés sur SQL et enfin de synchroniser vos données en temps réel.Chaque audience peut alimenter en temps réel autant de destinations que nécessaire !À partir de 700€ par mois
Y42Y42 est la plateforme de données que tout le monde peut utiliser sans compétences d’analyste de données. Y42 permet de supprimer la complexité de la gestion d’outils et ainsi de commencer à utiliser cette une plateforme orientée analyse de données.Entre 449€ et 899€
KeboolaLa plateforme Keboola offre un service de preparation de données avancé en 4 étapes:STOCKAGE DE DONNÉES1. Stockage de données: Keboola Connection fournit un stockage élastique, évolutif et sécurisé pour les données structurées et non structurées. 2. Partage des données: le catalogue de données intégré de Keboola rend le partage des données entre les projets et les équipes sûr et rapide.3. Transformations de données: les transformations dans Keboola Connection sont basées sur des outils avec lesquels tout ingénieur de données est déjà familier. 4. Science des données: Que SQL ou Python soient vos outils de prédilection, les bacs à sable de science des données de Keboola vous amènent directement au travail réel.Version gratuite disponible