CRM Outils

Déduplication & Dédoublonnage des données clients – Enjeux, outils et tutoriel

Publié le , mis à jour le 8 min
Profile picture for Yassine Hamou Tahra

Yassine Hamou Tahra

Co-fondateur

Yassine est un des co-fondateurs de Salesdorado. C'est aussi le fondateur et CEO d'Octolis, une CDP de nouvelle génération.

La performance de vos actions marketing & CRM repose en bonne partie sur la qualité de vos bases de données clients. Vous devez les nettoyer régulièrement. Ce qui, entre autres, passent par un travail de déduplication / dédoublonnages des contacts. Qu’est-ce que c’est ? Pourquoi c’est important ? Comment ça marche ? Quels outils ? C’est l’objet de cet article. A la fin, en bonus, nous vous présenterons un petit tutoriel pour dédupliquer vos contacts en SQL.

Dédoublonnage : une étape indispensable dans votre data quality CRM

La déduplication et le dédoublonnage constituent une étape clé de toute démarche de Data Quality Management. Nous allons voir pourquoi c’est si important, quelle différence faire entre déduplication et dédoublonnage et quelles sont les approches classiques en matière de déduplication.

Pourquoi la déduplication est si importante ?

La déduplication consiste à identifier les données qui apparaissent dans plusieurs fichiers du système d’information et à les conserver dans un seul fichier par fusion (ou merging en anglais). Dans le cadre de la gestion de bases de données, il s’agit pour la plupart du temps de dédupliquer des contacts.

Un système d’information de type CRM par exemple a nécessairement tendance à engendrer des duplications de contacts dans plusieurs endroits différents du système. Pour au moins 4 raisons :

  • Les personnes qui gèrent le CRM ajoutent parfois des contacts ou créent des comptes sans forcément vérifier s’ils ont déjà été enregistrés ou non dans le système. Même si votre CRM envoie des notifications en cas de duplication, tout le monde n’y fait pas attention – et les notifications ne s’affichent pas toujours très bien sur mobile.
  • Les outils d’import de données n’identifient pas toujours très bien les duplications.
  • Les intégrations avec des sources externes de données comme les formulaires de site web, les portails partenaires ou les brokers emails ne requêtent pas toujours les données du CRM avant d’importer les nouvelles données.
  • Beaucoup d’erreurs humaines ou de bugs logiciels (bugs du CRM ou des applications / outils associés) peuvent facilement engendrer des centaines ou des milliers de duplications.

Avoir 2% de données dupliquées n’est pas un drame, tant qu’il s’agit de données à courte durée de vie et que vos outils et process permettent de les détecter et de les corriger. Au-delà de 5% de duplications, les choses se gâtent. C’est à partir de ce seuil que les utilisateurs commencent à se plaindre, que les reportings conduisent à de fausses analyses.

Détecter et corriger les données dupliquées est un travail qui prend du temps et qui demande une grande rigueur méthodologique. Vous devez choisir les bons outils de détection de données dupliquées, bien les utiliser, identifier à partir d’eux les principales raisons pour lesquelles votre SI génère des données dupliquées et tarir à partir de cette compréhension les principales sources de création de duplications.

Disposer d’un système d’information avec le moins de données dupliquées possibles permet :

  • D’avoir une base de données plus propre : la déduplication est une étape clé du nettoyage de BDD.
  • De réduire les coûts de maintenance et de stockage de votre système.
  • De réduire les coûts d’envoi de vos campagnes et plus largement tous les coûts  marketing.
  • D’améliorer l’expérience client > Il n’y a rien de plus agaçant pour un client que de se voir ciblé plusieurs fois par une même action, campagne ou scénario marketing. La déduplication permet d’éviter une dégradation de l’image de marque résultant de l’envoi de doublons de messages.
  • De mieux connaître vos clients en limitant la dispersion des données dans plusieurs tables.
  • D’améliorer la fiabilité des reportings et les prises de décision basées sur eux.

L’augmentation du nombre de sources de données et du nombre de points de contact a tendance à favoriser la création de données dupliquées. Lorsque l’on utilise des dizaines d’outils, de bases et de canaux, le risque qu’un client se retrouve recensé dans plusieurs endroits du système n’est pas négligeable. D’où l’importance de se saisir du sujet !

Déduplication vs Dédoublonnage

On confond souvent déduplication et dédoublonnage. Ce sont pourtant deux choses assez différentes.

On parle de « doublon » lorsqu’une information, une donnée est présente plusieurs fois dans une même base de données ou dans un même fichier.

On parle de « donnée dupliquée », lorsqu’une même donnée est présente dans plusieurs bases ou fichiers du système d’information. La problématique des données dupliquées est majeure notamment dans le domaine de la prospection. Lorsque vous utilisez plusieurs fichiers de prospection différents, il peut facilement arriver qu’un contact soit présent dans plusieurs fichiers. Dans ce cas, la déduplication des données permet d’éviter de contacter plusieurs fois un même prospect.

Malgré tout, il ne faut absolutiser cette distinction. Le point commun entre la duplication et le doublon est qu’elle a pour effet d’engendrer la présence de deux contacts/données identiques dans le système d’information. Dans un SI unifié avec RCU, les opérations de dédoublonnage et de déduplication sont assez proches.

Quelles sont les approches classiques en matière de déduplication ?

La création de données dupliquées est souvent liée à des différences syntaxiques résultant d’erreurs de saisies de la part des commerciaux ou conseillers clientèle, d’inversions, de l’utilisation d’abréviations (pour les adresses postales par exemple)…Les données renseignées dans le formulaire de contact, dans le formulaire de création de compte, lors d’un échange avec le service clients  ne sont pas strictement identiques, ce qui engendre des duplications de données dans le système, dans le CRM par exemple.

Les données sont une matière vivante, la plupart d’entre elles sont vouées à évoluer avec le temps : l’individu déménage, change de numéro de téléphone, change de nom de famille (mariage, divorce…), etc. Cela peut aussi contribuer à créer des doublons. Dans ce cas de figure, l’entreprise doit mettre en place des règles de priorité entre les sources de données pour identifier la « bonne » donnée, celle qui a le plus de chances d’être vraie > donc celle à utiliser.

Découvrez 10 conseils pour construire des Landing Pages optimisées pour la collecte de leads.

Les utilisateurs du système d’information sont en général capables d’identifier rapidement les informations associées à un individu, de repérer l’identité du contact derrière les différences syntaxiques. Mais à partir d’un certain volume de données, il devient indispensable d’utiliser des mécanismes d’automatisation pour détecter et corriger ces différences et supprimer les données dupliquées. Voici les principales étapes de la démarche :

Première étape : La gestion des données (Data Management)

  • Le traitement RNVP (Restructuration, Normalisation, Validation Postale) des adresses postales
  • La normalisation des numéros de téléphone.
  • Etc.

Deuxième étape : La mise en place d’un algorithme pour calculer une note de proximité, et ce pour chaque type de données : nom, prénom, adresse postale, email, téléphone…Deux méthodes sont possibles :

  • Une analyse de la similarité des chaînes de caractère et l’utilisation de calculs de distance : Levenstein, Hamming…
  • Une analyse de similarité sonore qui consiste à comparer le contenu des données d’un point de vue phonétique. Les méthodes du métaphone et du double-métaphone sont très utilisées dans cette optique.

Troisième étape : Le calcul d’un score de similarité global de la base de données. C’est là qu’entre en jeu un modèle de machine learning permettant de construire un indicateur composite de similarité. Des méthodes de type random forest peuvent être utilement mises en place à ce niveau.

Quel outil utiliser pour dédupliquer vos données clients ?

Nous allons à présent vous présenter 3 très bons outils pour dédupliquer vos données clients.

Octolis

deduplication donnees clients exemple outil octolis

Octolis est une Customer Data Platform (CDP) légère conçue pour connecter vos sources de données, les nettoyer, les dédupliquer, les unifier et les enrichir. A partir de là, l’outil vous offre la possibilité de créer des audiences, des scores, des segments, des agrégats que vous pouvez ensuite synchroniser en quelques clics dans vos outils Sales et Marketing en vue de vos cas d’usage d’activation.

Contrairement aux CDP classiques, Octolis est indépendant de votre base de données clients (votre data warehouse) et vous laisse le contrôle total de votre BDD.

L’outil déduplique les contacts et les entreprises en utilisant plusieurs clés, par défaut : l’userId, ou Nom x Prénom x Email ou Nom x Prénom x Téléphone. L’équipe d’Octolis peut, le cas échéant, mettre en place de nouvelles clés sur demande.

deduplication donnees clients exemple outil octolis interface

DQE Software

Créé en 2008, DQE Software est un éditeur de solutions spécialisées dans la gestion de la Data Quality et la mise en place de référentiels clients uniques. DQE a développé plusieurs technologies intelligentes d’optimisation de la qualité des données clients, couvrant toute la chaîne allant de la collecte des données à leur activation marketing. Les solutions DQE sont disponibles en mode cloud (SaaS) ou en versions hébergées sur les serveur de l’entreprise. Elles sont conçues pour s’interfacer facilement avec les outils CRM et ERP. Avec plus de 150 000 utilisateurs et une croissance annuelle de +20%, DQE Software est une référence sur le marché.

Découvrez notre Top des logiciels CRM & Marketing B2B avec version gratuite.

Amabis

Implanté en France et au Maroc, Amabis est un acteur français en exercice depuis plus de 20 ans sur le marché de la gestion de données clients. La société compte près de 500 clients. Historiquement, Amabis était spécialisée dans l’infogérance de bases CRM & marketing (AmaBase), ce qui lui a permis d’acquérir une forte expertise dans la gestion des données clients et de devenir un acteur de premier plan dans l’univers du Data Quality Management. Amabis propose une nouvelle offre CRM depuis 2015, AmaCRM, qui intègre nativement la gestion de la Data Quality.

Et si vous appreniez à dédupliquer vous-même en SQL ?

Saviez-vous qu’il est possible de dédupliquer les données clients de votre base de données relationnelle à partir d’une “simple” requête SQL ? Nous avons fait quelques captures d’écran pour vous expliquer rapidement la logique. La requête que nous allons vous présenter permet de transformer une table de contacts en référentiel client unique (RCU). Voici le résultat :

La première capture présente la table avant l’exécution de la requête SQL, la deuxième la table après l’exécution de la requête.

Cette requête, comme vous pouvez le voir, prend en compte des règles de unmerging, pour que deux contacts associés à tord puissent être dissociés a posteriori. C’est très pratique. Dans ce cas, cela permet d’éviter que deux membres d’une même famille soient associés à cause de l’identité du nom. Rappelons que la déduplication est le process qui consiste à fusionner les contacts identiques qui se trouvent dans vos bases. Dans ce process, l’un des plus gros risques est de fusionner des contacts qui ne sont pas identiques. Les règles d’unmerging jouent le rôle de gardes-fous. Si vous décidez de dédupliquer vos contacts en SQL, nous vous recommandons vivement de mettre en place ces règles.

Découvrez notre guide complet sur l’art d’identifier les visiteurs anonymes d’un site web en B2B.

L’autre intérêt de cette requête SQL est qu’elle réussi à faire un fuzzyjoin sur le prénom en assimilant les prénoms accentués / non accentués et les prénoms avec / sans majuscule > Clément = clement. Rappelons que les différences orthographiques / syntaxiques sont la principales sources de doublons. Voici la requête :

Nous avons pris le temps de détailler chacune des parties qu’elle contient, pour vous aider à mieux comprendre la logique.

Si vous maîtrisez le langage SQL et la gestion de bases de données relationnelles, vous pouvez réaliser la déduplication de vos données clients en SQL. C’était ce que nous voulions vous montrer au travers ce petit exemple.

Vous êtes marketeurs et pas du tout à l’aise avec le SQL ? Nous vous invitons à découvrir les fondamentaux du SQL pour les marketeurs.

À propos de l'auteur

Profile picture for Yassine Hamou Tahra

Yassine Hamou Tahra

Yassine est un des co-fondateurs de Salesdorado. C'est aussi le fondateur et CEO d'Octolis, une CDP de nouvelle génération.