5 problèmes de qualité des données et leurs solutions

Les entreprises actuelles dépendent des données. Elles sont cruciales pour prendre les bonnes décisions à propos de la direction future de l’entreprise, pour faire en sorte que les clients se voient offrir les produits ou services les plus pertinents pour eux et pour développer une compréhension approfondie de ce qui se passe dans l’entreprise et sur le marché en général.

Mais rien de cela ne peut se produire si les données sur lesquelles s’appuient les entreprises ne sont pas fiables. Certains pensent qu’avec la quantité énorme d’informations que les entreprises possèdent aujourd’hui, le volume de données traitées par les outils analytiques compensera les erreurs occasionnelles.

Ce n’est pas nécessairement le cas et si la qualité de vos données présente des problèmes plus généralisés, vous prendrez certainement des décisions basées sur des résultats trompeurs. Comme le dit l’adage, « à données inexactes, résultats erronés ». D'ailleurs, Gartner estime qu’environ 40 pour cent des données des entreprises sont inexactes, incomplètes ou indisponibles, et que cette mauvaise qualité coûte environ 14 millions de dollars par an à une entreprise moyenne.

Prendre le temps d’examiner entièrement et de nettoyer vos données avant de les transférer dans vos solutions analytiques est donc une étape essentielle.

Dans cette optique, voici cinq des problèmes les plus courants en matière de qualité des données que vous risquez de rencontrer, et ce que vous devez faire si vous les rencontrez.

1. Duplication des données

Les données dupliquées sont un problème que toutes les entreprises devront traiter. Il se produit souvent lorsque les processus sont en silos et que de multiples systèmes enregistrent les mêmes informations. Lorsque ces sources sont rassemblées pour traitement, la présence de plusieurs copies des mêmes dossiers peut déformer les résultats ou faire perdre du temps.

Les clients pourraient ainsi recevoir plusieurs matériels marketing identiques, ce qui peut les agacer et être une source de gaspillage de temps et d’argent. Ou bien il peut être difficile d'aider un client qui vous contacte pour vous poser une question quand vous avez plusieurs entrées sur votre système, contenant des informations différentes.

Pour éviter ce problème, des outils de déduplication des données sont indispensables. Ces outils utilisent des algorithmes pour analyser les très grands ensembles de données et identifier les dossiers dupliqués. Autrefois, ces solutions n’identifiaient pas les dossiers présentant des différences mineures, mais les versions actuelles sont suffisamment intelligentes pour trouver des entrées mêmes très différentes se rapportant au même client.

2. Formats incohérents

Si vous saisissez des données qui couvrent les mêmes informations, mais qui sont conservées sous des formats différents, de nombreux systèmes peuvent avoir du mal à reconnaître les éléments comme appartenant à la même catégorie et produire des résultats inexacts.

Par exemple, les dates sont un obstacle courant pour de nombreux systèmes, car il y a de nombreuses manières de les saisir dans différents systèmes. Il peut être particulièrement difficile pour les outils de faire la différence entre les dates de style américain et européen. Si vous avez une source de données qui utilise le format JJ/MM/AA et une autre qui utilise MM/JJ/AA, les résultats peuvent être faussés.

D'autres difficultés potentielles peuvent se présenter pour les numéros de téléphone, surtout lorsque certains ont des indicatifs régionaux et pas d'autres, alors que les différences dans la saisie des données, par exemple quand on utilise « Boulevard », « Boul. » ou « Bd » dans les adresses, peuvent aussi créer des problèmes de duplication. Il est donc crucial de spécifier les formats exacts pour chaque élément de données pour garantir la cohérence entre toutes les sources utilisées par votre organisation.

3. Informations incomplètes

Les champs partiellement remplis ou laissés blancs peuvent poser de graves problèmes aux outils tels que les logiciels CRM et les solutions de marketing automatisé, sans oublier les algorithmes de big data. Par exemple, les entrées sans code postal ne sont pas seulement un problème quand il s'agit de contacter directement les clients : elles peuvent aussi rendre les principaux processus d'analyse totalement inutiles car il manquera aux données les informations géographiques essentielles qui peuvent vous aider à identifier les tendances et à prendre des décisions.

Faire en sorte que les dossiers ne puissent pas être créés si toutes les informations essentielles ne sont pas présentes est un bon départ, alors que la configuration des systèmes pour exclure les entrées incomplètes peut être un autre moyen de réduire les problèmes.

4. Unités et langues multiples

Comme pour le formatage, les différences de langue, d'alphabet ou d'unités de mesure peuvent créer des difficultés. Il existe de nombreux exemples d’erreurs catastrophiques qui se sont produites parce qu’une personne avait oublié de tenir compte de ces aspects, comme le satellite Mars de la NASA qui s’est écrasé parce que son logiciel de navigation avait été programmé en unités impériales au lieu d'unités métriques.

De même, traiter des données enregistrées dans plusieurs langues peut poser des problèmes si les outils analytiques ne reconnaissent pas ces langues ou ne savent pas comment les traduire. Même les caractères spéciaux comme les trémas et les accents peuvent faire des ravages si un système n’est pas configuré pour les accepter. Vous devez donc réfléchir à ces problèmes potentiels si vous travaillez avec des données internationales, et programmer vos algorithmes en conséquence.

5. Données inexactes

Enfin, il n’y a aucun intérêt à réaliser de grandes analyses de données ou à contacter des clients sur la base de données totalement fausses. Des données inexactes peuvent exister pour plusieurs raisons. Par exemple les clients peuvent donner des informations incorrectes, ou bien un opérateur humain peut faire une faute de frappe pendant la saisie manuelle des données, ou encore saisir les informations dans le mauvais champ.

Ces cas comptent parmi les problèmes de qualité des données les plus difficiles à identifier, surtout si le formatage reste acceptable. Par exemple, la saisie d’un numéro de sécurité sociale incorrect mais valide peut passer inaperçue dans une base de données qui vérifie uniquement la véracité des saisies de manière isolée.

Il n’y a pas de solution aux erreurs humaines, mais il est utile d’avoir des procédures claires et respectées en permanence. L’utilisation d’outils d'automatisation pour réduire la quantité de travail manuel quand on transfère les données entre systèmes est extrêmement utile pour réduire le risque d’erreurs faites par des travailleurs fatigués ou déconcentrés.

Tech Insights for Professionals

Insights for Professionals vous propose un accès gratuit aux thought leadership les plus récents de marques présentes à échelle mondiale. Nos abonnés bénéficient de contenu spécialisé de haute qualité créé ou regroupé pour les professionnels chevronnés.