Accueil
 > Rapports de TEC > Blogue de TEC > Distillation données: L'importance de la qualité des donn...

Distillation données: L'importance de la qualité des données dans Business Intelligence

Écrit par : Anna Mallikarjunan
Date de publication : juillet 18 2013

<

Publié à l'origine - 20 Octobre 2008

Le zèle pour obtenir des données d'entreprise autant à l'utilisateur dès que possible emporte souvent sur la mise en place des processus qui contrôlent la qualité des données. Normes de qualité de données à faible peut conduire à de mauvaises décisions d'affaires et les occasions manquées. Même avec un entrepôt de données qui est bien conçu et équipé avec les meilleurs outils pour l'intelligence d'affaires (BI), les utilisateurs vont rencontrer l'inefficacité et la frustration si la qualité des données est compromise. Lorsqu'ils se lancent dans un entrepôt de données ou un projet d'intelligence d'affaires, il est essentiel pour les organisations mettent l'accent sur la qualité des données qui est utilisée pour l'analyse et la décision subséquente de décision.

Comme les données capturées à partir d'une multitude de sources fait son chemin à un entrepôt de données d'entreprise ou data marts, un cadre de qualité des données crée un processus de sélection qui permet de mesurer la pureté des données et corrige les incohérences trouvées. Cet article guide le lecteur à travers une stratégie classique de qualité des données en illustrant par des exemples, comment et où les problèmes de qualité se produisent, et les options qui s'offrent à inhiber la prolifération de ces questions. Nous regardons un sous-ensemble de fournisseurs qui offrent des solutions puissantes et riches pour protéger la qualité des données de l'entreprise.

commencer par le commencement

Le problème des données inexactes commence souvent dans les systèmes d'application (les sources de données). Il ya des meilleures pratiques simples qui peuvent aider à limiter l'ampleur des données inexactes.

  1. types de données attachant à des entités commerciales . Les types de données dans les bases de données sources doivent décrire étroitement les entités d'affaires qu'ils représentent. Par exemple, les entités numériques ne doivent pas être stockés sous forme de colonnes avec des types de données de chaîne. Lorsque des données non numériques est accidentellement stockés dans ces colonnes, les problèmes d'intégrité sont tenus de se produire en aval.

  2. NULLS par défaut . Les valeurs par défaut doivent être spécifiées pour toutes les colonnes de sorte que les valeurs "null" de toutes les entités sont explicables. Ne pas le faire conduira à des systèmes d'entreposage de données ayant pour deviner la représentation correcte des valeurs NULL.

  3. appliquer l'intégrité référentielle . Les relations entre les entités qui sont identifiés doivent être appliquées au moyen de l'intégrité référentielle. Par exemple, la ville d'un client doit être limitée à un ensemble prédéfini de villes.

  4. l'application des règles d'affaires . systèmes de bases de données fournissent des contraintes , avec laquelle certaines règles métier peuvent être appliqués à des valeurs qui sont entrés dans la base de données. Par exemple, une colonne de salaire peut avoir une plage prédéfinie. En outre, les interfaces d'application doivent fournir les champs de saisie contraintes afin de simplifier la saisie des données de l'utilisateur, ainsi que respecter les règles métier. Par exemple, les numéros de téléphone nord-américains doivent être limités à 10 chiffres, le sexe est entré par une interface utilisateur sous contrainte, et ainsi de suite.

  5. cohérence à travers les systèmes d'entreprise . Une approche unifiée de la construction de systèmes d'application à l'échelle de l'organisation est primordiale pour s'assurer que les entités sont décrits régulièrement dans plusieurs systèmes au sein d'une organisation. Master Data Management gagne en importance et la pertinence. Bien que cet article ne s'attarde sur ce sujet, il est important pour les organisations à mettre en place les outils et les processus de gestion des données maître nécessaires.

Données class="articleHeader">

class="articleText"> problèmes de qualité des données

fonctions de qualité des données de class="articleText">

profilage des données , pour analyser et identifier les problèmes de qualité; nettoyage des données , de rectification et de normaliser les données en préparation pour la consommation par la communauté des utilisateurs et le suivi des données , pour contrôler la qualité au fil du temps.

diagnostiquer avec profilage des données

en créant des profils de données, les entreprises peuvent acquérir une compréhension des problèmes de qualité qui découlent de leurs données d'entreprise. Metrics sont créés en fonction des champs sélectionnés pour mesurer la qualité des données représentées dans ces domaines. Des exemples de données métriques de profilage sont les suivants:

  1. nombre de valeurs distinctes , qui donne un aperçu de la façon dont l'unicité est maintenue.

  2. Pourcentage de valeurs de chaîne . Les valeurs numériques dans des entités alphanumériques ou vice versa peuvent dénoncer les violations de base de types de données.

  3. pourcentage de valeurs manquantes . Un grand pourcentage de valeurs manquantes peut signaler des erreurs dans le système source (s).

  4. minimum et maximum valeurs . En regardant un ensemble de valeurs minimales et maximales avec un nombre de fréquences de ces valeurs peut rapidement rappeler les données qui se trouvent en dehors de la fourchette prévue de valeurs. Si les trois valeurs minimales et maximales pour l'âge dans une base de données des étudiants universitaires sont (6, 17,18) et (24, 42, 52), il est probable que 6 a été incorrectement entré à la place de 16, 42 et 52 en place de 24 à 25 ans.

class="articleText"> règles plus avancées

Data mining est le processus de découverte de l'information à partir de données de l'entreprise qui est autrement cachés. Par exemple, une librairie en ligne suggère livres supplémentaires en fonction de ce qu'un utilisateur ajoute à son panier en examinant les preuves d'autres acheteurs comparables. Cela se fait par l'utilisation de règles d'association appliqué aux données historiques de ventes. Bien que le but principal de données minières est de mieux comprendre l'entreprise, il peut être appliqué à découvrir des anomalies dans les données. Considérons un système basé sur le Web qui infère lieu de protocole Internet d'un utilisateur (IP). Si tous les utilisateurs sur un jour donné, se trouvent être localisé en Californie, cela peut indiquer que ce jour-là, l'inférence basée sur IP ne fonctionne pas correctement et tous les utilisateurs ont été mis à l'emplacement par défaut, ce qui est arrivé à être mis à la Californie .

En un mot, le profilage de données fournit des informations sur les données de l'organisation. Problèmes de qualité clés sont identifiés et doivent être adressés avant de poursuivre. Toutes les données déviantes qui révèle des problèmes plus en amont doivent déclencher une action immédiate pour corriger le composant (s) qui a causé ces anomalies. Notez que le profilage ne permet pas d'éliminer tous les problèmes de qualité; showstoppers sont éliminés et un cadre pour gérer la qualité des données est mis en place.

correcte avec Data Cleansing

Si profilage examine les données à travers une loupe, le nettoyage implique l'utilisation d'un microscope électronique. L'extrait de , transformation et chargement processus (ETL) dans des données extraits du système d'entreposage dossiers de source de données (s), transforme qui les utilisent règles pour convertir les données en une forme appropriée pour le reporting et l'analyse, et enfin charges les enregistrements transformée en destination (généralement un entrepôt de données ou data mart). Le nettoyage des données est une partie intégrante du processus de transformation et d'affaires impose et les règles de schéma sur chaque dossier et sur le terrain. Le nettoyage des données implique l'application d'écrans de qualité qui surveillent chaque dossier source. Le résultat de la violation des règles de gestion peut inclure

  1. en utilisant des règles qui sont spécifiées dans la logique de l'application de nettoyage des données

  2. enregistrer l'erreur et passer à la valeur de données suivante

  3. fin au processus

L'action la plus appropriée dépend de la nature et de la gravité de chaque émission de données. Si un dossier qui contient une adresse est absente de l'état ou de la province, mais a la ville et le pays, l'action la plus appropriée serait de corriger le dossier en déduisant l'état ou province à partir des deux autres éléments de données, plutôt que d'y mettre fin ou en ignorant l' erreur.

fonctionnalité de nettoyage de données class="articleText">

  • validation vérifie si chaque valeur de données obéit à des règles commerciales spécifiées. Si, par exemple, le format de données d'un numéro de sécurité sociale est incorrecte, ou une valeur de données obligatoire est manquante, une procédure de validation peut drapeau et même propre ou de corriger la valeur des données. Règles de gestion complexes spécifiques à l'environnement de l'entreprise peuvent également être construits pour valider les valeurs de données autorisés, le cas échéant.

  • déduplication est l'une des techniques de nettoyage les plus importants, dans lequel les entités en double sont fusionnés. La duplication des données peut se produire dans un seul champ, mais le plus souvent dans une combinaison de champs. Par exemple, "AAMilne | Ecrivain | Hampstead, England" et "Alan Alexander Milne | Auteur | Hampstead, Londres, Angleterre" représentent la même entité. Toutefois, les matches de texte simple sur chaque champ ne résolvent pas ce match. Appariement basé sur la logique floue peut être appliqué pour résoudre ces dossiers. Fuzzy matching standard permet d'éliminer les doublons qui sont causées par match faute d'orthographe ou approximative à travers l'utilisation des fonctions de similarité . Une fonction de similarité retourne habituellement un score qui représente le degré de similitude entre les deux ensembles de valeurs de données. Logiciel qui fournit des fonctionnalités correspondant flous a souvent sous-jacente de bibliothèques qui fournissent des connaissances qui ne peuvent pas être discerné purement partir d'un texte (ou phonétique) similitudes. Par exemple, la connaissance de que «développeur» et «programmeur» doit être considéré comme le même titre d'emploi est nécessaire pour correspondre avec succès titres d'emploi qui ont peu ou pas de similarité textuelle. La plupart des outils offrent également la possibilité de personnaliser les règles de correspondance et de créer des règles plus complexes adaptées à l'environnement des affaires en particulier.

  • Householding est la méthode par laquelle les dossiers individuels peuvent être regroupés en fonction des propriétés communes qu'ils partagent. Agrégats qui sont basés sur les noms d'organisation du client peut être effectuée par la première regroupant tous les enregistrements en entreprise (avec correspondance floue pour résoudre les correspondances approximatives), puis calculer les agrégats pour chaque groupe.

maintenir par la surveillance des données

Afin de maintenir la fiabilité des données, il est impératif de créer des contrôles qui évaluent en permanence la qualité des données et déclenchent des alertes lorsque les niveaux de qualité des données sont menacés. Avec un cadre de nettoyage des données en place, une organisation construit son propre profil de problèmes de qualité des données et la façon dont ces questions sont traitées, à chaque occurrence. surveillance des données peut donner un aperçu de la façon dont souvent les doublons ont été trouvées et résolu, le nombre de valeurs manquantes ont été réglés chaque semaine, et quels types de mesures ont été prises pour des valeurs qui n'ont pu être résolus manquant. Les règles peuvent être construites que les seuils de piste sur les niveaux de tolérance pour divers problèmes de qualité de données, des alertes peuvent être déclenchées lorsque les seuils dépassent les niveaux autorisés. Les processus et les applications faibles sont identifiés grâce à la qualité des données de suivi dans le temps. L'idée trouvée par une surveillance constante peut être utilisée pour consolider les processus d'affaires. Ce mécanisme de rétroaction continue des contrôles de qualité en place en permanence.

En Vendorland

technologie de qualité des données de class="articleText">

DataFlux (société SAS) offre dfPowerStudio , une plate-forme intégrée pour la qualité et l'intégration des données des données. Une des composantes de dfPowerStudio est Profile ® dfPower, un module de profilage de données étendue. Elle comprend l'analyse des métadonnées qui permet d'organiser les données de plusieurs sources de l'organisation. Un composant de découverte de la relation permet de découvrir les relations entre les sources de données et la granularité. En plus de vérifier les relations de métadonnées définies par le profil dfPower ® permet de découvrir les relations qui ne sont pas définis dans les métadonnées.

Informatica s ' Workbench de la qualité des données s'intègre parfaitement avec PowerCenter pour créer une plate-forme unique pour l'intégration des données et qualité des données . Les utilisateurs peuvent option de partitionnement traitement parallèle à base d'Informatica pour exécuter la qualité des données et les processus d'intégration en parallèle pour des performances élevées levier. Explorateur de données d'Informatica profils colonnes individuelles, les relations au sein de tables, et à travers des tables, afin d'identifier les problèmes de qualité des données.

Datanomic s ' dn: Director propose une gamme de processeurs , qui constituent un ensemble complet de fonctions de qualité des données . Cela inclut le profilage et l'analyse d'acquérir une compréhension des données, transformation qui aide à nettoyer et enrichir les données, expression profiling et l'analyse qui peut aider à fournir une structure de données non structurées et d'identifier les informations importantes qui pourraient être cachés dans de grands ensembles de données, et l'appariement qui peut être utilisé pour la déduplication. En plus d'une architecture de traitement par lots, la solution prend également en charge une architecture temps réel dans lequel les processus développé à l'aide dn: Director peut être appliqué à Java Messaging Service transactions (JMS) afin de valider les données en temps réel .

Tout a une morale, si seulement vous pouvez le trouver

est le but principal d'une solution BI pour fournir une entreprise avec les informations nécessaires pour soutenir une meilleure prise de décision. Cela exige l'intégration des données au sein et à l'extérieur d'une entreprise. Une bonne stratégie de qualité des données protège une entreprise contre les incohérences et les anomalies qui découlent de la complexité de l'intégration des systèmes multiples et de problèmes cachés qui sont découverts uniquement grâce à des techniques d'analyse sophistiquées. Des solutions de qualité de données fournissent aux organisations la possibilité de comprendre leurs données de meilleure grâce au profilage, régler les problèmes de qualité des données à travers le nettoyage, et d'établir des processus pour surveiller la qualité de leurs données au fil du temps.

propos de l'auteur

Anna Mallikarjunan est membre du TEC de l'équipe de recherche et de développement. Elle est responsable de l'analyse et le développement du logiciel d'aide à la décision développé par TEC ainsi que des outils de business intelligence (BI). Elle a plus de quatre ans d'analyse de l'entreprise, la conception et l'expérience de développement dans plusieurs domaines de la BI, y compris l'entreposage de données; extraire, transformer et de chargement (ETL); traitement analytique en ligne (OLAP), les rapports, et le développement d'applications personnalisées.

positions passées Mallikarjunan a occupés, mentionnons responsable technique et applications directeur du développement d'une équipe d'. NET, l'entreposage de données, BI et professionnels pour une entreprise de vente au détail de la mode. Dans ce rôle, elle était responsable de l'élaboration, la maintenance et le support d'applications Windows et Web-based, ainsi qu'un magasin de données opérationnelles, data marts et applications BI.

Mallikarjunan détient un baccalauréat en informatique de l'Université de Madras (Inde), et d'une maîtrise en informatique de l'Université Anna à Madras, en Inde.

 
comments powered by Disqus

Recherches récentes :
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Others

©2014 Technology Evaluation Centers Inc. All rights reserved.