Les données constituent la matière première de tout projet de valorisation des données et d’intelligence artificielle. Il est donc nécessaire de les nettoyer, les structurer et les corriger avant de lancer une solution basée sur elles. Bien que cette étape soit la plus importante, elle est souvent négligée, ont déploré deux experts de Videns Analytics à l’occasion de la Semaine numériQC.
Le développement d’une solution en intelligence artificielle requiert plusieurs étapes. Il faut d’abord définir un besoin ou un objectif d’affaires, puis vient la collecte de données, suivie des traitements des données, du suivi, de la maintenance et de l’amélioration, du développement d’algorithmes et enfin de la mise en œuvre de la solution elle-même.
La collecte de données est donc l’une des premières étapes. Si celle-ci ne se fait pas correctement, toute la solution en souffrira. Au départ les données ne sont jamais « propres », il faut donc les nettoyer. Mais « il y a une panoplie de difficultés auxquelles on peut être confronté pour travailler cette matière première et en tirer quelque chose », prévient Sébastien Duguay, architecte de solution à Videns Analytics.
Personne n’est à l’abri de ce type d’erreur, même la NASA! Ainsi Sébastien Duguay a examiné les données provenant de la mission vers Saturne de la sonde Cassini-Huygens. Même dans celles-ci, il a constaté qu’il y avait des données manquantes, voire aucune continuité dans les formats.
« Il ne faut donc pas être gêné d’avoir des données de mauvaise qualité sur lesquelles il faut passer du temps. Même au sein de projets d’envergure pilotée par une équipe solide, il ne faut pas présumer que l’on va avoir une qualité de données exemplaire », conclut Sarah Legendre-Bilodeau, CEO de Videns Analytics.
Deux grandes familles d’erreurs
Il existe ainsi deux types d’erreurs lorsque l’on collecte des données : les erreurs humaines et les erreurs techniques.
L’erreur à laquelle Sébastien Duguay est le plus souvent confronté est l’erreur humaine intentionnelle. « Il faut souvent que les données soient formatées d’une certaine façon, mais si ça n’a pas été bien pensé ou communiqué, l’utilisateur va trouver une façon de contourner ces processus pour faciliter son travail », témoigne l’expert.
Sarah Legendre-Bilodeau abonde en son sens. Selon elle, cela arrive souvent dans les systèmes opérationnels. Par exemple, en assurance, lorsqu’un employé rencontre un client et qu’il a beaucoup d’informations à saisir, il aura possiblement tendance à tourner les coins ronds pour aller plus vite.
Il existe aussi des erreurs non intentionnelles. Il est ainsi possible de se tromper s’il l’on applique mal les règles établies, tout simplement parce qu’on ne les comprend pas. On peut aussi voir des erreurs d’oubli ou d’inattention.
Du côté des erreurs techniques, on peut voir des erreurs au niveau de la programmation, des méthodes, des versions ou des paramètres utilisés.
Les erreurs les plus communes
Il y a plusieurs catégories d’erreurs que l’on retrouve de façon récurrente. La première est au niveau du type de données. Les données ne sont pas dans le format attendu et sont ainsi mal classées. Il faut aussi faire attention lors des conversions de format.
Sarah Legendre-Bilodeau se rappelle ainsi d’une entreprise dans laquelle ils utilisaient le numéro de succursale lors de leur collecte de données. Malheureusement, celui-ci a été branché comme une variable numérique dans la solution, faussant ainsi tous les résultats.
Une deuxième catégorie d’erreurs est au niveau des plages de données. On retrouve par exemple des dates futures alors que c’est impossible, ou encore des restaurants notés six étoiles sur cinq, rapporte Sébastien Duguay. Il est important de détecter ces aberrations avant de les intégrer dans sa solution.
Une autre grande problématique, ce sont les doublons. « On voit ça souvent dans des projets de migration de données au niveau d’un CRM, qui sont des systèmes importants de grandes organisations », rapporte Sarah Legendre-Bilodeau. Souvent, on fait ce type de migration parce que les utilisateurs ne sont pas satisfaits de l’ancien système, mais si aucun ménage n’est fait au niveau des données, il est certain que les utilisateurs ne seront toujours pas satisfaits du nouveau système.
Il peut finalement y avoir des erreurs au niveau de l’alignement et de la construction. Au niveau de la construction, il est important de s’assurer que les variables indépendantes qui permettent d’expliquer la situation ne soient pas construites avec ce que l’on essaie de prédire. Dans les grandes entreprises, souvent, on ne sait pas comment les variables explicatives sont construites, car on ne sait pas de quelle équipe elles proviennent. Sarah Legendre-Bilodeau affirme que lorsque le modèle semble trop bon, c’est qu’il y a un problème, surtout lorsque les données proviennent des clients.
Préparer ses données
Afin de préparer vos données, Sébastien Duguay donne quelques conseils. Le premier étant de supprimer les données non pertinentes. « Évidemment il faut avoir les données les plus propres possibles, mais c’est aussi une considération de sécurité. Parfois on a des données avec des considérations nominales, mais on n’en a pas besoin pour développer le modèle. Il vaut donc mieux les supprimer. Ça va également permettre d’éviter des erreurs! », précise-t-il.
Une deuxième étape est de dédupliquer ses données, puis de corriger les erreurs structurelles au niveau de la collecte. « La prévention c’est toujours mieux qu’essayer de corriger le problème », soutient l’expert.
Il est aussi essentiel de gérer les données manquantes. Le but n’est pas de supprimer la ligne, car souvent une donnée manquante constitue aussi une information, assure Sarah Legendre-Bilodeau. « Il faut comprendre pourquoi la donnée est manquante : est-ce un segment client qui a une aversion à partager les données ? C’est une information, surtout en marketing ! » Elle-même recommande ainsi de les garder et les transformer, car elles apportent souvent beaucoup de valeur au modèle.
Il est aussi important d’étudier les données aberrantes pour identifier leur source et éviter d’en retrouver d’autres.
Sarah Legendre-Bilodeau recommande de faire beaucoup de statistiques descriptives afin de prévenir d’éventuels problèmes, et ce, bien que l’on ait hâte d’arriver au modèle.
Des conseils pratiques
- Résistez à l’envie d’ajuster un modèle dès le départ;
- Travaillez vos données textuelles;
- Gardez en vue les variables qualitatives;
- Méfiez-vous des modèles prédictifs trop performants;
- Comprenez le processus de mise à jour des données;
- Pensez développement et déploiement