En comparant Business Intelligence et Data Integration Best-of-breed Extract fournisseurs de Transform and Load Solutions

  • Écrit par : Lyndsay Wise
  • Date de publication : juillet 18 2013



Présentation

Pour comprendre la pertinence de l'extrait transformer et charger (ETL) des composants et comment ils s'insèrent dans l'intelligence d'affaires (BI), on devrait d'abord apprécier ce que l'intégration des données est et l'importance d'avoir des données précises et propres qui permettent des décisions d'affaires efficaces. Dans le secteur de la BI, l'intégration des données est essentielle. En capturant la bonne information, les organisations sont en mesure d'effectuer des analyses, créer des rapports et élaborer des stratégies qui leur permettent non seulement de survivre, mais, plus important encore, de prospérer.

Informatica , un fournisseur leader de logiciels d'intégration de données d'entreprise, définit l'intégration de données comme «le processus de la combinaison de deux ou plusieurs ensembles de données ainsi que pour le partage et l'analyse, afin de soutenir gestion de l'information à l'intérieur d'une entreprise ». En termes de BI, cela signifie que les données sont extraites sous sa forme originale et stocké dans un emplacement provisoire, où il est transformé dans le format qui sera utilisé dans l'entrepôt de données. Le processus de transformation comprend la validation des données (par exemple, en remplissant des informations de code postal nulle dans la base de données clients) et les champs de données de reformatage (par exemple, en séparant Nom et Prénom domaines de la clientèle dossiers qui sont fusionnées en une seule base de données, mais pas d'autres). L'étape suivante consiste à charger les données dans l'entrepôt de données. Les données sont ensuite utilisées pour créer des requêtes et l'analyse des données se fonde, comme le traitement analytique en ligne (OLAP) cubes et des analyses de tableaux de bord. Dans un sens, l'extraction des données appropriées, en le transformant en nettoyant et en fusionnant les dossiers, et le charger dans la base de données cible est ce qui permet des solutions de BI à construire des outils d'analyse avec succès. Il est aussi l'essence de fonctionnalités ETL.

composants d'intégration de données

Afin de déterminer la solution ETL plus approprié pour eux, les organisations doivent évaluer leurs besoins en termes de composantes essentielles du processus d'intégration de données, comme indiqué ci-dessous.

  • identification de données. Quelles sont les données de l'organisation ont besoin d'extraire et d'où vient-il? Quel est le résultat final, en termes de données, l'organisation ne voulons analyser? Essentiellement, répondre à ces questions suppose d'identifier l'origine des données, et quelle est la relation entre les différentes sources de données. Photos     
  • Extraction de données . Quelle est la fréquence de l'organisation exigent des données? Est-il mensuelle, hebdomadaire, quotidienne ou horaire? Où doivent stocker les données et les activités de transformation se produire (par exemple, sur un serveur dédié ou dans l'entrepôt de données, etc)? Compte tenu de ces facteurs identifie les besoins de fréquences de données de l'organisation. Par exemple, l'analyse des données sur les ventes peut exiger l'organisation de charger des données mensuelles ou trimestrielles, alors que d'autres transferts de données peuvent être effectuées plusieurs fois par jour. Pour déterminer la fréquence du chargement des données et de la transformation dans l'entrepôt de données ou sur le serveur dédié, l'organisation doit également considérer la quantité de données à transférer et son effet sur les performances du produit. Photos     
  • la normalisation des données. Quel est le format des données de l'entreprise, et il est actuellement compatible avec les mêmes éléments de données dans d'autres systèmes? Par exemple, si l'organisation veut analyser l'information à la clientèle et de fusionner client les habitudes d'achat des données de service à la clientèle, il faut savoir si le client est identifié de la même manière dans les deux endroits (par exemple, par l'identification des clients [ID], numéro de téléphone, ou nom et prénom). Ceci est crucial pour s'assurer que les données correctes sont fusionnés et que les données sont attaché au bon client tout au long du processus de normalisation des données. Un autre problème de la standardisation des données de l'organisation doit faire face à est d'identifier comment il va gérer le nettoyage des données et des fonctions d'intégrité des données au sein de l'entrepôt de données au fil du temps .

  • Data Transformation. L'organisation doit tenir compte des exigences de transformation de données et l'interaction entre les composants de données transformées. Les questions essentielles sont de savoir comment les données seront prises en compte dans la nouvelle base de données, et la façon dont ces données seront regroupées sur une ligne de base de la ligne? Répondre à ces questions suppose d'identifier les règles métier et les données associées aux données pour assurer l'exactitude des charges de données. Photos     
  • chargement de données . Lorsque les données seront chargées? Quelles activités de surveillance des données sont nécessaires? D'autres données de chargement préoccupations n'ont identification de transfert de données, comment transferts échoués sont manipulés, et comment les mises à jour se produisent. Par exemple, se charge chaque impliquer re-charger le jeu de données complet, ou sera mise à jour sera faite en utilisant uniquement des champs mis à jour dans les sources de données?

traditionnelle ETL

Après avoir évalué les éléments de base de l'intégration des données, l'organisation doit étudier ses besoins traditionnels de BI dans toute l'organisation, et d'évaluer comment ils vont évoluer ou changer.

Jusqu'à récemment, ETL impliqué le téléchargement des données à intervalles réguliers (par exemple, mensuelle ou hebdomadaire) des intervalles de temps pour prendre des décisions de performance de l'entreprise et d'identifier les opportunités d'affaires. Cependant, comme les outils de BI deviennent plus intégrés avec des fonctions d'affaires global, y compris la gestion de la performance des entreprises (BPM) et les exigences de reporting et d'analyse, les besoins en données ont changé depuis intervalles mensuels ou hebdomadaires aux mises à jour en temps réel. Cela signifie qu'il est devenu plus important pour les transferts de données pour refléter fidèlement les transactions commerciales en temps réel, et qu'il ya eu une augmentation du montant des transferts de données nécessaires.

Néanmoins, ETL en temps réel ne se réfère pas nécessairement au transfert automatique des données des bases de données opérationnelles sont mises à jour. En termes de BI, en temps réel peut signifier différentes choses pour différentes organisations ou même différents départements au sein de ces organisations. Prenez, par exemple, un constructeur automobile dont les données traditionnelles solutions entrepôt (cubes OLAP, etc) impliqués capture de données à un point donné dans le temps. Le constructeur automobile pourrait, par exemple, ont voulu suivre et de comparer les ventes mensuelles avec les ventes de l'an dernier durant le même mois, par région, modèle de voiture, et la taille du distributeur, ce qui nécessite l'entrepôt de données pour être mis à jour sur une base mensuelle. Cependant, comme les décisions d'affaires du fabricant évolué en fonction de cette analyse, les données doivent décalés d'une exigence mensuel à un hebdomadaire d'une, et sur une base de plus en plus fréquentes, voire de créer la demande pour les données en temps réel. Dans le cas de l'automobile au constructeur, des données en temps réel peuvent être utiles pour déterminer le mouvement des pièces de véhicules à l'intérieur de l'entrepôt par rapport à leurs emplacements de stockage et la comparaison de ces informations avec la demande de ces parties.

un tel changement dans les exigences relatives aux données affecte à la fois le volume de données nécessaires et lorsque le chargement de données se produit. Le résultat final est que, afin de répondre aux besoins changeants des associations d'usagers, les fournisseurs ETL et BI sont concentrés sur le déplacement vers ETL en temps réel et se défausser de leurs données chargement de la fonctionnalité pour accueillir l'augmentation des volumes de transfert de données.

Comment les vendeurs manipuler ETL?

Une fois qu'une organisation a évalué ses besoins en matière d'intégration de données BI, et elle est prête à enquêter éditeurs de BI et le type de fonctionnalités ETL qu'ils offrent. Il est important de noter que si, pour de nombreux fournisseurs, ETL est seulement une partie de leur offre, cet article va se concentrer strictement sur les fonctionnalités ETL ces fournisseurs offrent. Lors de l'évaluation des fournisseurs potentiels et de leurs fonctionnalités ETL, il existe deux types de choix. Fournisseurs tels que Cognos , SAS , et Information Builders fournissent des fonctionnalités ETL intégré construit dans leur cadre global BI. Intégration des données ou des fournisseurs de qualité des données telles que DataFlux , Ascential , et Trillium , d'autre part, de fournir des solutions ETL best-of-breed. Quel type de vendeur une organisation favorisera dépendra de ses besoins en données.

En général, les éditeurs de BI accueillir des clients en offrant un soutien intégré pour changer lentement exigences relatives aux données, ainsi qu'en permettant aux utilisateurs de choisir le lieu de chargement des données. Ceci permet d'augmenter la vitesse de transfert de données, à recevoir des demandes de l'industrie pour l'augmentation des données de chargement dans l'entrepôt de données et d'un plus grand nombre de chargement des données dans une période de temps donnée.

Cognos 8 BI Data Manager permet aux utilisateurs d'extraire, de fusionner, de transformer et charger des données en un seul passage, ainsi que d'utiliser des services Web pour construire et programmer processus construit et de l'emploi sur un serveur situé à l'intérieur du réseau. En outre, des processus tels que la hiérarchie et les définitions de validation des données sont automatisées, ce qui permet un soutien intégré pour changer lentement dimensions et les données qui arrivent en retard. Data Manager permet au processus d'intégration de données dans un environnement drag-and-drop simple.

SAS s ' intégration de données utilise une interface utilisateur pilotée par un assistant pour offrir une facilité d'utilisation pour les utilisateurs finaux. Inclus dans ses fonctionnalités ETL est la capacité de traitement à se produire en mode natif sur n'importe quelle plateforme et dans n'importe quelle base de données. La solution a construit dans l'équilibrage de charge de données pour optimiser les ressources, ainsi que le déploiement évolutif pour tenir compte des besoins croissants en matière de transfert de données. Cette dernière fonctionnalité élimine la nécessité de repenser les processus que les données les exigences changent. En outre, le produit de SAS dispose d'un design incrustée, le test et l'environnement de production, qui permettent aux utilisateurs de synchroniser les transferts de données et de mener des tests.

Information Builders ' DataMigrator offre des fonctionnalités ETL essentiel, comme la capacité à agréger, joindre, fusionner et appliquer des critères de sélection à l'information à partir de n'importe quel combinaison de sources de données. DataMigrator peut également transformer les données à partir de formulaires brutes en formats structurés en fonction des besoins commerciaux individuels et générés automatiquement et File Transfer Protocol son (FTP) géré. En outre, DataMigrator permet soit chargement en vrac ou inserts de données en rangée à-temps, et a un ensemble de données de changement capturer capacité qui permet aux dossiers seulement changé pour être chargées dans la base de données requise, ce qui rend plus facile à réaliser près les résultats en temps réel.

class="articleText"> Les fournisseurs d'intégration de données suivants

DataFlux , acquis par SAS en 2000 pour étendre ses capacités d'entreposage de données, fournit un produit appelé dfPowerStudio qui peut identifier l'exactitude des données, la validité et modèles pour normaliser les données. En outre, dfPowerStudio peut surveiller et contrôler les données en fournissant des alertes pour identifier l'état des données de l'organisation au fil du temps. Les alertes sont également fournis pour identifier les niveaux de qualité des données et les violations de règles métier. En outre, dfPowerStudio analyse et corrige les incohérences de données. Il correspond données par les données de regroupement en groupes, la fusion des doublons dans le meilleur choix de disques à travers la fonctionnalité drag-and-drop. En outre, l'interface conviviale de dfPowerStudio fait profilage des données et de gestion de la qualité des données facile.

intégration de l'information IBM WebSphere (anciennement Ascential Software ) est une suite d'intégration de données qui permet aux organisations d'utiliser une seule plate-forme d'intégration d'informations d'accès, de nettoyer , intégrer, transformer et transmettre des données, ainsi que d'identifier immédiatement les anomalies de données par le biais d'une source intégrée et le profilage cible et le système d'analyse. Logiciel WebSphere IBM conserve des données grâce à l'utilisation d'un référentiel unique et ouverte sur DB2 , Oracle , ou SQL plates-formes serveur; valide besoins de l'entreprise pour identifier les si elles sont réalisables ou non, et assure que les données sources soutien exigences cibles disparates

Trillium , une société Harte-Hanks , fournit également aux utilisateurs une suite de solutions logicielles qui leur permet de mettre en œuvre une solution globale de la qualité des données. La suite, composée de Trillium Software Discovery et Trillium System Software , permet aux utilisateurs d'identifier les formats de données erronées, des doublons, les fautes d'orthographe et les valeurs redondantes et disparus, et à créer et définir leurs propres règles métier pour contrôler automatiquement les normes de données. En outre, le logiciel Trillium génère des diagrammes entité-relation, crée un référentiel central de données, des métadonnées, des statistiques, des règles et de la documentation, et a creuser capacités vers des lignes individuelles de données. En outre, le profilage des données en continu, le nettoyage et les activités de surveillance, plus de filtre et les capacités de recherche des données sont disponibles.

Conclusion

fonction des exigences relatives aux données de l'organisation et de ses normes d'intégrité des données, l'organisation doit déterminer si les fournisseurs de BI peuvent fournir toutes les fonctionnalités indiquée ou si la société devraient profiter des fonctionnalités de qualité de données supplémentaire qui est construit en à l'intégration des données et de fournisseurs de qualité des données. À cet égard, les organisations doivent se rendre compte que les données «mauvais» se produit au fil du temps lorsque les données sont saisies incohérente dans des systèmes disparates au sein d'une organisation. Pour optimiser les solutions de BI, les données doivent être propres et précis, et ce processus doit être maintenu dans le temps. Fournisseurs de qualité de données, tels que DataFlux , accordent la priorité sur le nettoyage des données en fournissant des fonctionnalités aux utilisateurs finaux qui permettent le nettoyage des données et le suivi des activités de se produire sur une base régulière dans le temps. Avec éditeurs de BI offrant des suites intégrées, ce n'est pas toujours le cas. L'utilisation de ces suites BI intégrés peut exiger d'une organisation à fournir des données en profondeur fonctions au niveau de l'utilisateur final de nettoyage avant que les données soient introduites dans les entrepôts de données. Ce n'est pas seulement fait perdre du temps en heures de travail, mais met aussi le fardeau du maintien de normes de données sur les groupes d'utilisateurs finaux, où incohérences dans les données les plus susceptibles de se produire en raison d'une erreur humaine. Ainsi, pour de nombreuses organisations, il est avantageux d'investir plus d'argent dans le but d'intégrer les solutions des deux types de vendeurs, en utilisant les meilleurs outils d'analyse d'une solution BI et l'intégrité des données et les capacités de gestion offertes par l'intégration de données best-of-breed fournisseurs.

 
comments powered by Disqus