L'énigme de la qualité des données pour les Big Data | Suraj JUDDOO | MU

L’énigme de la qualité des données pour les Big Data, par Suraj Juddoo

Le terme “Big Data” est aujourd’hui très populaire. Cependant, en approfondissant le concept, il existe encore beaucoup d’inconnues, ou d’idées mal définies, sur lesquelles travaillent des chercheurs du monde entier.

Les Big Data ont commencé avec l’évolution des technologies de l’information qui permettent de tirer une plus grande valeur des données. L’utilisation des données par les entreprises a augmenté en taille, de sorte que dans certains cas, les ensembles de données sont mesurés dans l’ordre du pétaoctet.

Les organisations de détail comme Walmart et Tesco traitent des millions de transactions de clients par heure. Des milliards de personnes dans le monde travaillent avec différents types de données par le biais de leurs appareils mobiles, y compris les téléphones et autres appareils intelligents.

De plus, avec l’utilisation accrue des réseaux, des capteurs, des systèmes de traitement des transactions et des médias sociaux, entre autres, les organisations sont confrontées à un déluge de données qui devrait atteindre un volume mondial stupéfiant de 40 ZB cette année (en 2020), où un ZB équivaut à un trillion de GB (soit mille milliards de GB).

Toutefois, il n’existe pas de définition standard du terme “Big Data”. L’explication la plus acceptée fait référence à des ensembles de données qui ne peuvent pas être traités par des outils liés aux bases de données relationnelles et aux entrepôts de données (data warehouse) ; cette incapacité a entraîné le développement d’une myriade d’outils et de techniques relatifs au stockage, à l’analyse et à l’affichage des données. Cet amalgame de différents outils et techniques gravitant autour du concept de données est connu sous le nom de “Big Data”.

La valeur ajoutée derrière la possession de tels volumes gigantesques de données réside dans la capacité à donner un sens aux données, un domaine qui souffre actuellement d’énormes inefficacités. L’utilisation de l’analyse des données dans le domaine des systèmes d’information (SI) est présente depuis plusieurs années avec des systèmes tels que la « Business Intelligence » (BI) et le ” Data Mining“.

Malheureusement, les outils et techniques actuels d’analyse des données ne sont plus adaptés en raison des caractéristiques suivantes des Big Data : volume, vitesse, variété et véracité.

La vitesse fait référence à la rapidité avec laquelle les données collectées sont analysées de manière à ce qu’elles soient utilisées en temps utile, tandis que la variété fait référence aux différents formats, structurés et non structurés, des données collectées et analysées. La véracité fait référence à la notion de niveau de qualité des données. L’argument principal ici est que la qualité des données présentes dans des ensembles de données extrêmement volumineux doit être conforme à un certain niveau de qualité en raison des doutes liés à la provenance des données. Il est également très important d’utiliser des données de qualité ou des données “fit for purpose” afin de produire des décisions, des informations, des connaissances et même des renseignements exploitables à partir des systèmes d’information.

Ce raisonnement a donné lieu à de nombreuses études de recherche visant à améliorer la qualité des données. Ce domaine est souvent appelé activités de “prétraitement” et comprend notamment le nettoyage des données, la transformation des données, l’intégration et la réduction des données.

Malheureusement, le prétraitement pourrait réduire le temps de réponse et l’efficacité globale de l’ensemble du SI, en particulier si l’on se réfère aux systèmes de Big Data. Les outils et techniques traditionnels pour améliorer la qualité des données ne sont pas adaptés aux Big Data, en raison des 3Vs (volume, vitesse et variété). La communauté de la qualité des données s’exprime en faveur d’outils et de systèmes plus appropriés visant à traiter la caractéristique de véracité des Big Data.

La qualité des données par rapport aux Big Data en général est un sujet relativement peu étudié, avec des écoles de pensée différentes concernant son importance. Cependant, l’augmentation des activités de réglementation et une meilleure compréhension de la valeur des données ont accru l’importance de la qualité des données en tant que discipline au sein des organisations.

Il y a quelques années, certains doutaient de la nécessité d’initiatives en matière de qualité des données pour les Big Data. Ce point de vue n’est plus soutenu, car la plupart des analyses Big Data sont affectées par des « données sales ». Les modèles créés par l’analytique deviennent erronés en raison de problèmes tels que les valeurs aberrantes et les données incomplètes, entre autres.

Afin d’améliorer la qualité des Big Data, il est essentiel de comprendre plus précisément ce que l’on entend par données de qualité. Cette compréhension ne peut être générique et est très contextuelle, variant selon les industries et les besoins des utilisateurs.

Les dimensions de la qualité des données désignent une notion ou une caractéristique particulière de la qualité. Les dimensions traditionnelles de la qualité des données telles que l’actualité, la disponibilité, l’exactitude, la précision, la cohérence, la sécurité et l’accessibilité pourraient devoir être reconsidérées en tenant compte des caractéristiques spécifiques de volume, de vitesse et de variété associées aux Big Data.

Par exemple, les données provenant de capteurs doivent présenter les caractéristiques d’actualité et de précision, alors que les données connexes et similaires provenant de médias sociaux ne présentent pas le même degré de précision.

The Canadian Institute for Health Information (CIHI)) a identifié l’exactitude, l’actualité, la comparabilité, la facilité d’utilisation et la pertinence comme les principales dimensions de la qualité des données. D’autre part, l’exhaustivité, l’exactitude, la concordance, la plausibilité et l’actualité sont considérées comme les principales dimensions des dossiers de santé électroniques. Disposer d’un ensemble standard des dimensions les plus importantes de la qualité des données pour les Big Data par secteur d’activités, sera déjà un pas significatif vers la création d’une méthodologie pour améliorer la qualité des Big Data.

La détermination de la qualité des données relatives à un ensemble de dimensions pourrait être réalisée par l’application de techniques de classification par machine learning. Les classificateurs sont soit des modèles d’apprentissage supervisés tels que les Machines à Vecteurs de Support (SVM), soit des modèles d’apprentissage non supervisés tels que l’Analyse Sémantique Latente Probabiliste.

Les modèles d’apprentissage supervisé ont besoin d’informations a priori sur les données pour construire des dispositifs d’apprentissage, très probablement sous la forme d’un ensemble de données de référence. Les modèles de données génératives basés sur des statistiques sont des modèles d’apprentissage non supervisés bien établis, appliqués dans les tâches de prétraitement pour les activités de gestion de la qualité des données.

Un exemple est “BayeSwipe“, qui est un outil basé sur le théorème de Bayes pour prédire statistiquement les occurrences de données incorrectes (Sushovan De, 2014).

Cependant, l’efficacité de cette technique pour détecter et corriger les données incorrectes n’est que d’environ 40 %, ce qui est assez limité. On ne sait pas encore très bien si les modèles de machine learning pourraient être efficaces pour améliorer la qualité des données dans le contexte des Big Data pour l’industrie de la santé. Même les modèles de Machine Learning peuvent améliorer les initiatives en matière de qualité des données, il existe un manque de connaissances quant aux modèles de machine learning qui seraient plus appropriés dans un contexte particulier.

Un article de M. Suraj Juddoo, Senior Lecturer chez Middlesex University (Mauritius Branch)

Suraj est un professionnel de l’informatique avec une vaste expérience universitaire et industrielle de près de 20ans. Suraj effectue actuellement des recherches doctorales sur les modèles de qualité Big Data, à la recherche de moyens plus efficaces pour localiser et nettoyer les données avant d’être utilisé pour des analyses de données ultérieures qui devraient fournir la puissance derrière l’analyse prédictive.