Accueil
 > Rapports de TEC > Blogue de TEC > L'évolution d'un entrepôt de données en temps réel

L'évolution d'un entrepôt de données en temps réel

Écrit par : Jorge Garcia
Date de publication : juillet 18 2013

L'évolution d'un entrepôt de données en temps réel
Jorge Garcia

Comprendre les systèmes en temps réel

Aujourd'hui, l'informatique temps réel est partout, de systèmes de contrôle de l'information à la clientèle (CICSs) pour les systèmes d'entrepôt de données en temps réel. Les systèmes temps réel ont la capacité de répondre aux actions de l'utilisateur dans un très court laps de temps. Ce comportement de calcul donne des systèmes temps réel des caractéristiques particulières telles que l'interaction instantanée: les utilisateurs demandent des informations du système et ils reçoivent la réponse. En outre, les utilisateurs ont la possibilité de rester connecté (en ligne) afin qu'ils puissent commencer cette interaction avec le système à tout moment, ce qui est appelé Un système de traitement des transactions en ligne (OLTP).

En général, un système en temps réel génère une grande quantité de données mises à jour et fonctionne de manière transactionnelle (sens, il est utilisé pour enregistrer les transactions commerciales). Même si un système en temps réel traditionnelle peut stocker des informations historiques, il n'est pas conçu pour exploiter cette information à des fins d'analyse. Dans les systèmes en temps réel, l'importance des données réside principalement dans la possibilité de réagir ou de répondre à des données les plus actuelles dans le système et utilise des données historiques à des fins de surveillance. Systèmes temps réel communs sont conçus à des fins comptables (par exemple, informations de facturation, les réservations de vol, etc.) Les données transactionnelles stockées dans le système en temps réel traditionnelle seront changés (mise à jour) selon les besoins opérationnels, ce qui explique pourquoi certains systèmes en temps réel traditionnels sont également appelés «systèmes opérationnels."

Le Data Warehouse

Les systèmes d'exploitation de class="articleText">

Une collection de sous-orientée, intégrée, variant dans le temps, et les données non-volatiles est ce qu'on peut appeler un entrepôt de données. Ces données sont utilisées pour soutenir le processus de prise de décision de l'équipe de gestion d'une organisation. Un entrepôt de données est utilisée pour intégrer l'ensemble des données historiques de l'organisation, et a la capacité de stocker des instantanés de ses transactions. Toutes les informations générées à partir de la source de données opérationnelles est extrait, purifié, transformé et chargé dans l'entrepôt de données. Une fois dans l'entrepôt de données, les données peuvent faire l'objet d'une large gamme de processus d'analyse et d'exploration.

Dans une conception de l'entrepôt de données traditionnelles, les données générées au sein de la société est concentrée dans un lieu unique et ne sera pas supprimé. Cela garantit que toutes les données sont intégrées et homologué pour refléter une version unique de la vérité dans toute l'organisation (chaque trimestre, mois, semaine, ou même jour). Il existe de nombreux outils qui permettent l'analyse des données de très divers points de vue des rapports et des outils d'analyse, traitement analytique en ligne (OLAP) outils d'analyse, l'extraction de données, de prévision, etc

et les décideurs ont réalisé qu'un entrepôt de données et sa technologie a la capacité de fournir une vue complète de l'état de l'organisation. Mais, comme les systèmes d'exploitation ont évolué, les entreprises ont fusionné, et la mondialisation augmentée, le nombre de transactions a augmenté de façon substantielle. Bientôt, il est devenu clair que le fait que des informations historiques disponibles ne serait pas suffisant pour donner aux entreprises toutes les données nécessaires pour aide à la décision. Les gestionnaires avaient besoin de données d'être rafraîchis à une vitesse élevée, ce qui oblige les entrepôts de données rafraîchir cycles d'augmenter en fréquence.

Temps Réel et le Data Warehouse

À première vue, en temps réel et des concepts d'entrepôt de données semblent être très lointain et disparate, mais si nous regardons de plus près, nous serons en mesure de voir que les données temps réel paradigme de l'entrepôt a plus de logique que nous aurions pu penser. Comme je l'ai mentionné précédemment, le volume (de données) généré par les systèmes de données opérationnelles a augmenté de manière intensive. Vitesse de données a forcé les entrepôts de données pour modifier radicalement la façon dont les données sont stockées et traitées.

comme un processus naturel et la conséquence de l'augmentation de la vitesse de génération de données, la conception traditionnelle de l'entrepôt de données a été forcé d'intégrer des cycles de rafraîchissement plus fréquent, et de nouveaux défis dans la conception d'entrepôt de données a dû être confronté. Une des premières étapes dans la gestion de ce problème majeur a été la création de l'entrepôt de données en temps quasi-réel.

l'entrepôt de données en temps quasi réel

L'extraction de , transformation et chargement (ETL) représente l'un des défis majeurs en matière de conception d'entrepôts de données en temps réel. Tous les processus d'entrepôt de données ETL ont été initialement conçus pour être exécuté en mode batch, pendant les arrêts prévus à l'horaire. Toutes les données opérationnelles provenant de sources distinctes (par exemple les systèmes ERP) a été extrait, nettoyé sous un référentiel de scène, et chargées dans l'entrepôt de données sur de longues périodes de temps, surtout la nuit. Ces processus peuvent prendre quelques minutes ou quelques heures, selon le volume de données téléchargées sur l'entrepôt de données.

Avec la pression pour charger les données les plus récentes dans l'entrepôt de données, tous les processus ETL ont été contraints d'augmenter leur fréquence avec de nouveaux designs. Cette approche a été dérivée à partir d'une solution très simple: si l'entreprise n'a pas vraiment besoin de la technologie en temps réel, il pourrait être suffisant pour mettre en place un entrepôt de données en temps quasi-réel. Cela signifie que la partie principale consiste uniquement à faire les démarches plus ETL. L'approche quasi-temps réel a quelques défis comme l'augmentation de la fréquence d'arrêt, la pression pour réduire la durée de la période de temps d'arrêt, et en évitant les incohérences dans les résultats des données. S'il n'ya pas de besoin réel pour une solution d'entrepôt de données en temps réel, une bonne option pourrait consister à mettre en place un entrepôt de données en temps quasi-réel.

Real-Time Data Warehouse

Un entrepôt de données en temps réel permet aux données d'être stockées au moment même où elle est produite et elle est immédiatement capturé, nettoyé et stocké à l'intérieur de la structure de l'entrepôt de données. Cycles de rafraîchissement traditionnelles ne sont plus valables. L'entrepôt de données est capable de lire les mêmes données qui se déplace autour des systèmes d'exploitation, en même temps qu'il est généré. Malgré les difficultés techniques de la mise en œuvre d'un véritable entrepôt de données en temps réel, il ya certains avantages.

  • Il raccourcit les délais de livraison de l'information.

  • Il améliore l'intégration dans toute l'organisation.

  • Il facilite l'analyse des tendances futures.

principes de base à prendre en compte

Avec la popularité croissante et l'augmentation de la mise en œuvre d'entrepôts de données en temps réel, il est important de tenir compte de certains principes de base lors de l'examen d'une mise en œuvre d'entrepôt de données en temps réel.

données à temps, au bon moment . Les données doivent circuler à l'entrepôt de données en temps réel à la vitesse nécessaire pour être considérées comme des données précieuses. Dans un entrepôt de données en temps réel, le mécanisme de lots ETL basé sur une table ou le transfert de fichier est remplacé par une conception dans laquelle les flux de données à partir de sources très différentes de données encore été synchronisées dans l'entrepôt de données. Les données seront considérées comme valable que si elle s'écoule à la bonne vitesse et pas nécessairement à la vitesse en temps réel. Ce cycle de données dépendra de l'objectif d'analyse des données est utilisée pour. Données en temps réel est une partie essentielle du processus d'analyse, mais les données historiques demeure un élément essentiel du paradigme de la conception. Bien que l'analyse tactique nécessite des données immédiates ou récents, d'autres types de prise de décision stratégique exigera un plus grand volume de données historiques. Pour toutes les analyses d'affaires, une combinaison de données historiques et en temps réel est nécessaire.

Le but analytique . Les entrepôts de données en temps réel ne sont pas destinés à remplacer les systèmes d'exploitation traditionnels. L'une des fonctions d'un entrepôt de données en temps réel est de soutenir les besoins de l'analyse, et pas à exercer des fonctions opérationnelles. Même quand un entrepôt de données en temps réel a la capacité de stocker des données en temps réel, son design est destiné à accomplir intensive chargement de données, pas les enregistrements basés sur les transactions. Entrepôts de données en temps réel sont basés sur des données d'entreprise les flux plutôt que les transactions commerciales, et ont besoin de maintenir leur principal but analytique.

La Focus Enterprise. Une des principales différences entre les autres systèmes en temps réel, telles que les ERP, CRM, etc est l'intégration. Un entrepôt de données en temps réel intègre les données qui circulent à partir de différentes sources pour un seul et même site. Considérons un entrepôt de données en temps réel comme Enterprise Data Warehouse-ce référentiel sera accessible pour toutes les unités d'affaires à travers l'organisation.

certains joueurs dans les données en temps réel Entrepôt Champ

Il ya plusieurs vendeurs dans l'espace d'entrepôt de données. Certains sont grands et offrent des solutions très robustes. Autres fournisseurs sont innovants et offrent des solutions très state-of-the-art. Voici quelques fournisseurs d'entrepôts de données à prendre en considération lors de la planification d'une implémentation de la solution d'entrepôt de données en temps réel (par ordre alphabétique).

Greenplum
 Base de données Greenplum est un logiciel d'entrepôt de données intégré pour appuyer le traitement d'analyse à grande échelle. traitement massivement parallèle (MPP) est basé sur une architecture multi-niveau et la tolérance aux pannes. Cette base de données prend en charge les interfaces standard de l'industrie ( structured query language [SQL], open database connectivity [ODBC], connexion de base de données Java [JDBC], et l'interopérabilité avec l'intelligence d'affaires le plus commun (BI) et des outils ETL.

IBM
IBM compte sur InfoSphere Warehouse pour offrir une solution de déploiement de l'entrepôt de données complet, avec différentes éditions (par exemple, Enterprise et départementales), et une solution de stockage complète (InfoSphere Balanced Warehouse). Récemment, IBM a annoncé InfoSphere System z dans le cadre d'une solution complète IBM Data Warehouse. Il permet aux applications de remplir les entrepôts de données DB2 sous les systèmes d'exploitation z / OS.

Microsoft
 SQL Server 2008 fournit une solution d'entrepôt de données évolutif pour BI. Les caractéristiques de ce produit comprennent la compression de données, les tables partitionnées, des capacités de parallélisme, et la capture de données modifiées. Les outils Integration Services évolutives permettent les opérations ETL rapide et la connectivité aux sources de données non-SQL Server.

Netezza
 Netezza Data Warehouse Appliances est une combinaison d'outils logiciels et matériels conçus pour le traitement analytique de très grandes quantités de données. L'architecture de Netezza est le traitement massivement parallèle (MPP)-fondé et utilise un traitement «streaming» pour aider à activer le processus analytiques avancées ou complexes.

Oracle
Oracle propose un ensemble de produits pour le déploiement de solutions d'entreposage de données, tels que Exadata Storage Server (basé sur le serveur HP ProLiant DL180 G5), la machine de base de données HP Oracle conçu pour les entrepôts de données de plusieurs téra, et l'outil d'intégration Oracle Warehouse Builder qui supporte des charges de données avancés et de capture de données pour les bases de données à faible latence. Ils offrent également d'autres produits comme Oracle Partitioning, qui peuvent réduire les temps de requête et d'accroître la disponibilité des données.

Teradata
Parmi les autres produits offerts, Terada base de données 12 est un Enterprise Data Warehouse (EDW) solution avec une capacité parallèle de fonctionnement, disponibilité mission-critique, et la facilité d'intégration. Avec le soutien de multitraitement symétrique (SMP), le traitement massivement parallèle (MPP), et ses propres outils et des utilitaires tels que Tpump, FastLoad, MultiLoad, les données sont chargées en permanence. En outre, les services de réplication de Teradata sont utilisés pour la capture et la transmission des données modifiées en temps réel.

Vertica
La base de données analytique Vertica est une base de données basé sur une architecture orientée colonne, député provincial qui gère les nouveaux entrepôts de données de nouvelle génération. Il est conçu pour gérer l'analyse de données à grande échelle et de nombreux utilisateurs simultanés, et dispose d'une compression des données agressif.

mise en œuvre entrepôt de données a changé radicalement. Il est encore un référentiel de données d'entreprise qui permet l'analyse des données. Mais aujourd'hui, les entrepôts de données sont capables d'intégrer non seulement des données historiques, mais les données en temps réel. Cette nouvelle fonctionnalité étend les fonctionnalités d'entrepôts de données et leur permet de stocker des informations à une vitesse supérieure. Il est également capable de supporter décision tactique et d'analyse pour l'organisation et au bon moment. L'entrepôt de données est non seulement bien vivant, mais il est en pleine évolution et de maturation. Il permet aux entreprises d'évoluer et de s'étendre en utilisant une nouvelle technologie pour analyser les informations passées et présentes, pour appuyer les décisions futures.

 
comments powered by Disqus

Recherches récentes :
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Others

©2014 Technology Evaluation Centers Inc. All rights reserved.