Pierre Raffaelle a dix ans et est passionné par l’informatique. Avec son papa, il apprend à traiter les données pour mieux comprendre le monde qui l’entoure.
Ensemble, ils réalisent des petites vidéos pédagogiques pour partager leur voyage au travers du monde des datas.
Dans ce premier épisode, Pierre-Raffaele nous explique ce qu’est le data cleaning, ou le nettoyage des données.
Le nettoyage de données (data cleaning) est l’opération de détection et de correction (ou suppression) d’erreurs présentes sur des données stockées dans des bases de données ou dans des fichiers.
Les données présentes dans les bases de données peuvent contenir différents types d’erreurs comme des erreurs de frappe, des informations manquantes, des données dupliquées, des imprécisions etc.
Il faudra dès lors remplacer, modifier ou supprimer la partie impropre de la donnée traitée. Le processus de nettoyage identifie les données erronées et les corrige automatiquement avec un programme informatique ou les propose à un humain pour qu’il effectue les modifications.
Le nettoyage de données est un des problèmes majeurs des entrepôts des données.
On le décompose en 3 phases :
- Analyser les données afin de détecter les potentiels problèmes
- Choisir le type de transformations à effectuer
- Appliquer ces informations aux données(1)
Pierre-Raffale nous explique comment procéder de façon simple et concrète.
Une production d’ https://www.intotheminds.fr
Pour en savoir plus sur la data visualisation : https://www.intotheminds.com/blog/data-visualisation/
(1)Sources : wikipedia