Accueil
 > Rapports de TEC > Blogue de TEC > Au sujet des données volumineuses

Au sujet des données volumineuses

Écrit par : Jorge Garcia
Date de publication : décembre 21 2011

Il n’y a pas de consensus sur la taille que devraient avoir les données pour être considérées comme des données volumineuses. Certaines compagnies traitent des volumes de données correspondant à des téraoctets ou même des pétaoctets. Mais tout le monde s’entend pour dire que gérer ces énormes quantités de données représente un défi. Il est juste de dire que nous traitons des données volumineuses lorsque les systèmes et les bases de données relationnelles classiques ne suffisent plus.

Des choses aussi simples telles que le stockage de données et les déplacements entre les différents dépôts peuvent avoir un effet important sur l’organisation. La gestion des données volumineuses est plus qu’une simple tâche avec d’énormes ensembles de données. Il est davantage question de la complexité d’analyser autant de données et d’en tirer le maximum de valeur; un avantage concurrentiel, une amélioration du rendement et, bien sûr, un certain profit. Les données volumineuses nécessitent des stratégies ainsi que des outils particuliers, et que l’on considère les autres facettes de ces données.

Plus qu’une taille

Les données volumineuses ont trois caractéristiques principales :

  • Volume. Le volume est la première caractéristique de même que la plus connue. Elle fait référence à la quantité de données à gérer. Plusieurs organisations produisent de grandes quantités de données à l’interne, ou recueillent de grandes quantités de données provenant de l’extérieur.
  • Variété. La variété de données que collectent les organisations a augmenté de plusieurs façons : ils y a davantage de systèmes internes dont les données (principalement structurées) sont recueillies, et il y a une augmentation de sources internes et externes de données provenant des médias sociaux semi-structurées ou sans structure, tels que les blogues, les tweets, ainsi que des données provenant de détecteurs ainsi que des documents texte en clair.
  • Vitesse. Comme les types de solutions traditionnelles (p. ex. : les entrepôts de données), les périodes de latence sont réduites. L’information est souvent confidentielle et doit être utilisée et déplacée selon certains délais afin d’en tirer le plus de valeur possible. Des réponses en temps réel ou presque sont des besoins communs dans les organisations modernes.

Lorsqu’il est établi que les données volumineuses sont un problème, il y a certains aspects importants à considérer. La complexité des données déterminera la difficulté de l’exploitation fiable de l’information cachée sous les données volumineuses. Cela guidera ensuite une organisation à acquérir la technologie pour gérer les données; la combinaison du matériel et des technologies qui rendent la gestion de ces données volumineuses possible.

Certaines organisations ont compris que les systèmes de gestion des bases de données relationnelles ne sont pas suffisants pour gérer des quantités impressionnantes et diverses de données, et les applications de veille économique traditionnelles ne sont pas assez puissantes pour dévoiler l’information potentielle dans un délai raisonnable. Elles ont besoin de développer certaines technologies pour être en mesure de traiter les données volumineuses.

Une solution conçue pour les données volumineuses fournit les moyens techniques d’effectuer des opérations avec de grands volumes de données dans une courte période, ainsi que la capacité de traiter différents types de données provenant de sources diverses.

Pourquoi toute cette publicité?

Une des raisons principales pour la conception de nouvelles applications et technologies est l’incapacité de déploiements de veille économique communs afin de gérer du contenu structuré et non structuré. Le processus d’extraction de données peut être particulièrement difficile avec de grandes quantités d’information.

Ces nouveaux outils changent le cycle des données de BI traditionnel. Les données peuvent être recueillies de ces sources et analysées en quelques secondes, offrant des résultants fiables dans une fraction du temps nécessaire par un déploiement de BI traditionnel, et réduisant ainsi la latence des données et accélérant le processus de prise de décision. Certains des avantages du déploiement d’une solution de données volumineuses comprennent :

  • La réduction du processus de prise de décision en lisant, analysant et offrant des résultats plus rapidement que les solutions traditionnelles
  • La collecte de l’information, qu’elle soit structurée, semi-structurée ou non structurée, de sources diverses, et sa gestion;
  • La possibilité d’effectuer des tâches de découverte de données vous permettant de bâtir des scénarios de test, ce qui est extrêmement important pour créer de meilleures solutions d’analytique et améliorer celles déjà existantes, ainsi que d’effectuer des analyses instantanées.

Il y a également un angle purement économique à la publicité pour les données volumineuses. Un entrepôt de données d’entreprise peut rapidement devenir coûteux alors que le volume de données augmente. Graduer un entrepôt de données peut être difficile lorsque l’on gère d’aussi gros volumes. Entre temps, certains prestataires de systèmes pour les données volumineuses peuvent créer des solutions qui sont moins coûteuses dès le départ, et qui peuvent être graduées, adaptées et modifiées lorsque nécessaire.

Les logiciels à code source libre, tels que NoSQL, ont également joué un rôle important dans le mouvement des données volumineuses, forçant la valeur du marché à demeurer basse.

Les joueurs

Comme n’importe quel segment de l’industrie du logiciel, l’espace des données volumineuses est rempli de prestataires qui répondent à différents aspects de la gestion des données volumineuses. Nous pouvons distinguer deux catégories principales dans l’espace des données volumineuses.

Les systèmes de gestion des données volumineuses sont conçus pour l’administration de grands volumes de données.

Systèmes de gestion de bases de données et de fichiers de données volumineuses

Produit

Éditeur

Fournisseur commercial de produits associés

Aster Database .

Aster Data
(acquis par
Teradata)

 

Ayrris

Appistry .

 

Cassandra .

Apache Software Foundation
(code source libre)

DataStax

Hadoop .

Apache Software Foundation
(code source libre)

Cloudera, Hortonworks,
MapR, Microsoft Big Data,
IBM InfoSphere BigInsights

Hypertable .

Hypertable.org
(code source libre)

 

MongoDB

MongoDB.org
(code source libre)

10gen

Riak

Basho

 

Les engins d’analyse de données volumineuses sont des produits qui permettent d’analyser de grands volumes de données ainsi que leurs ensembles d’information.

Engins d’analyse de données volumineuses

Produit

Éditeur

1010Data DBMS

1010Data

Greenplum Data Computing Appliance (DCA)

EMC

IBM Netezza Analytics

Netezza, une filiale d’IBM

Infobright Enterprise Edition

Infobright

Oracle Big Data Appliance

Oracle

ParAccel Analytic Platform

ParAccel

SQL Server R2 Parallel Data Warehouse

Microsoft

Sybase IQ

Sybase, une filiale de SAP

Vectorwise

Actian (anciennement Ingres)

Vertica Advanced In-Database Analytics

Vertica, une filiale de HP

WX2

Kognitio

Les données volumineuses ont été adoptées rapidement par les éditeurs de BI classiques. Certains offrent des connecteurs pour les applications de données volumineuses afin d’analyser les données. Certains de ces éditeurs sont Pentaho, Tableau Software, Endeca (acquis par Oracle), Jaspersoft et MicroStrategy.

Avant de commencer

Voici un résumé des éléments de base à prendre en compte quand vient le moment de sélectionner un prestataire de gestion des données volumineuses :

  1. Calculez les défis et les occasions cachées au sein de vos données. Déterminez le problème le plus important en matière de gestion et d’analyse de vos grandes quantités de données, et concentrez-vous sur celui-ci.
  2. Définissez clairement vos besoins. Avant de commencer à explorer une liste d’éditeurs, évaluez le type de technologie et d’information dont vous aurez besoin. Lorsque vous explorez vos options, assurez-vous de comprendre vos problèmes de données et ce dont vous avez besoin pour les résoudre.
  3. Ne vous précipitez pas; planifiez. Assurez-vous que votre initiative pour les données volumineuses et vos objectifs d’entreprise correspondent, et soyez certains que les avantages et les risques sont bien définis. Vous serez sur la voie du succès.

Une solution de données volumineuses comprend le cycle de vie de données complet, de la collecte des données jusqu’à sa représentation visuelle. L’explosion des données au sein d’une organisation peut être l’élan nécessaire pour une stratégie de données volumineuses. Les organisations qui réussissent le déploiement de ce type de solution sont celles qui sont en mesure de définir le type de données qui doit être géré, le processus que devront suivre ces données, et la nature de l’information recherchée. Suivant ce chemin, une organisation peut sélectionner et déployer la technologie nécessaire pour utiliser pleinement ses données.

 
comments powered by Disqus

Recherches récentes :
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Others

©2014 Technology Evaluation Centers Inc. All rights reserved.