Accueil
 > Rapports de TEC > Blogue de TEC > La vérité au sujet de l’exploration de données

La vérité au sujet de l’exploration de données

Écrit par : Anna Mallikarjunan
Date de publication : juillet 9 2009

<

L'implémentation de la veille économique (business intelligence ou BI en anglais) peut être considérée comme étant à deux vitesses. La première touche à la production de rapports standards, à la production de rapports ponctuels, aux analyses multidimensionnelles, aux tableaux de bord, aux fiches-résultats et aux alertes. La deuxième vitesse concerne davantage les organisations dont les éléments de la première vitesse sont arrivés à maturité. L'analyse des données avancées grâce à la modélisation prédictive et aux prévisions définit cette vitesse appelée « exploration de données ».

L'exploration de données possède une portée et des applications importantes. Elle s'applique à toutes les situations où il est nécessaire de découvrir des connaissances potentielles cachées dans un volume élevé de données. Dans cet article, le terme « connaissance » correspond aux modèles importants ressortant des techniques d'exploration de données qui peuvent stimuler les objectifs d'une organisation (tels que les recettes de la compagnie, le trafic Internet, l'augmentation du rendement des cultures agricoles ou l'amélioration des soins de santé). Le domaine de l'exploration de données regroupe les techniques et les statistiques; l'apprentissage automatique (la conception et l'élaboration des algorithmes qui permettent aux systèmes d'apprendre et d'améliorer leur performance selon leur propre expérience); les réseaux neuronaux (des modèles mathématiques ou quantitatifs fondés sur les systèmes nerveux); la technologie de bases de données; les calculs de haute performance (l'utilisation des superordinateurs et des grappes d'ordinateurs) et l'analyse spatiale de données (des techniques pour étudier des entités en utilisant leurs caractéristiques topologiques, géométriques ou géographiques), pour ne nommer que ceux-là. L'exploration de données est un domaine d'étude complexe qui est encore considéré ésotérique et difficile à implémenter dans plusieurs environnements de veille économique.

Sa raison d'être

L'exploration de données est le processus d'extraction de modèles cachés provenant d'un grand volume de données. En anglais, l'exploration de données se nomme « data mining ». Le terme « mining » (extraction) est souvent associé à un produit fini, comme l'or ou le charbon. Cependant, le produit fini de l'exploration de données n'est pas des données, mais des connaissances. L'exploration de données est utilisée dans plusieurs situations, mais voici les scénarios d'affaires les plus communs où cette méthode représente une solution possible :

  • Explosion de données. Lorsque le volume de données augmente de façon considérable, seuls des modèles statistiques spécialisés peuvent aider à découvrir les tendances importantes. Dans cette situation, une simple notification et une analyse multidimensionnelle peuvent ne pas être suffisantes.

  • Prévoir le comportement. Certaines situations demandent que les organisations prédisent le comportement des clients. Par exemple, une analyse de perte de la clientèle permet aux organisations de déterminer le type de clientèle qui risque de les quitter pour des entreprises concurrentes. Modéliser les maladies d'une population d'animaux selon les renseignements pertinents relatifs à l'espèce en question peut, grâce aux prévisions, aider à estimer le risque de maladie.

  • Vente croisée. Aussi connue, dans ce type de situation, sous le nom d'analyse du panier du consommateur, l'exploration des données peut offrir une nouvelle perspective des modèles de vente croisée. Les librairies en ligne, telles qu'Amazon.com, utilisent cette technique afin de recommander aux clients certains ouvrages associés au livre critiqué ou acheté.

  • Formations de taxonomies. L'exploration des données peut s'appliquer à des situations où certaines données d'apprentissage (les données qui sont utilisées pour former un modèle d'exploration) n'ont pas d'étiquettes classes. Les étiquettes classes sont utilisées pour conceptualiser les données. Par exemple, dans une analyse examinant les relations entre les saisons et les ventes de produits, les saisons, dans ce cas-ci, représentent le printemps, l'été et l'automne. Le regroupement ou la segmentation est le processus correspondant à la division des données en classes ou même en hiérarchies de classes, où les membres d'un groupe possèdent des caractéristiques similaires.

  • Prévisions. Afin d'estimer la valeur future de certaines entités, les techniques de prévision doivent être appliquées aux données. Par exemple, en prévoyant la demande de ses produits, un détaillant peut planifier sa production.

Pourquoi ne pas utiliser les technologies OLAP ou les statistiques?

L'exploration des données emploie des techniques avancées qui surpassent de loin les capacités du traitement analytique en ligne (online analytical processing ou OLAP) afin de comprendre les données. Les outils OLAP offrent des moyens d'effectuer des analyses multidimensionnelles en utilisant des algorithmes puissants pour regrouper les données. Tandis que les technologies OLAP peuvent aider à analyser les ventes d'un certain produit au sein d'une région particulière et d'une période limitée, l'exploration des données peut découvrir les relations entre différents attributs de données et déduire la raison pour laquelle les ventes dans une région particulière peuvent avoir décliné durant une certaine période. Les technologies OLAP et l'exploration des données sont fréquemment utilisées de concert et nous trouvons souvent une heureuse coexistence entre ces deux technologies d'entreposage de données et d'environnements de veille économique.

Par contre, il n'est pas aussi simple de comparer les statistiques avec l'exploration des données. La raison principale est que ces deux méthodes appartiennent à deux domaines d'études distincts : les mathématiques et l'informatique. Alors que l'exploration des données comprend l'exploration de grands volumes de données (gigaoctets ou téraoctets) afin de découvrir des modèles dans les données qui demeureraient autrement cachés ou inconnus, les statistiques tentent de prouver une hypothèse en établissant un modèle et en fournissant des preuves qui confirment ou infirment cette théorie. Par conséquent, la plupart des logiciels d'analyse statistique peuvent ne pas être en mesure de traiter le volume de données typique des processus d'exploration des données.

Une autre distinction est que la collecte des données est un élément principal des statistiques. L'assemblage des données appropriées pour tester une hypothèse est primordial. Cependant, l'exploration de données s'applique aux données qui sont déjà recueillies. Ainsi, l'exploration de données correspond mieux aux environnements de veille économique que les techniques de statistique.

L'architecture d'un système d'exploration de données

Nous supposons que l'architecture d'un système d'exploration de données comprend un entrepôt ou un magasin de données contenant des données organisationnelles. Bien que l'exploration de données puisse s'appliquer à une gamme variée de sources de données, il est avantageux de commercer avec un entrepôt de données dans lequel les dimensions et les faits ont été définis et qui comprend un cadre de nettoyage de données pour assurer une bonne qualité.

1. La base de connaissances
Le fondement d'un système d'exploration de données est la base de connaissances d'une organisation. Elle représente la connaissance du domaine qui décrit les données d'une organisation. Elle comprend des hiérarchies de concepts qui organisent les attributs ou qui imputent des valeurs, des concepts ou des classes de bas niveau jusqu'aux concepts de haut niveau ou généraux. Les concepts peuvent être implicites, tels que les adresses qui sont inscrites par numéro, rue, ville, province et pays. Les hiérarchies de concepts peuvent aussi être créées en organisant les valeurs. Un exemple d'une telle hiérarchie est la taille d'une compagnie. Elle peut être définie comme étant « micro » (moins de 5 employés), « petite » (5 à 100 employés), « moyenne » (100 à 500 employés) et « grande » (plus de 500 employés).

Les mesures d'intéressement constituent un autre exemple de connaissances du domaine. Ces mesures aident à classer ou à filtrer les règles qui sont générées à partir des données afin de déterminer les modèles qui seront les plus utiles pour une entreprise. Les mesures d'intéressement peuvent comprendre les mesures objectives qui sont déterminées statistiquement et les mesures subjectives qui proviennent des croyances de l'utilisateur quant aux relations entre les données qui peuvent aider à évaluer le degré de prévision ou d'imprévision des résultats obtenus de l'exploration de données. La base de connaissances est une contribution essentielle à toutes les étapes du processus d'exploration de données.

2. Le processus d'exploration de données

Figure 1. Création d'un modèle d'exploration de données

Le contenu de cet article portant sur le processus d'exploration de données se concentre particulièrement sur la modélisation et l'évaluation. Le modèle d'exploration de données constitue le noyau ou le centre de l'exploration de données. La première étape est la création du modèle à l'aide de la sélection des données pertinentes à l'objectif de l'exploration de données. Par exemple, si un exercice de recherche sur l'éducation exige une étude de la performance des étudiants de plusieurs villes dans une province particulière, seules les données de cette province sont importantes. De plus, si l'objectif est l'étude des relations entre la présence des étudiants durant les cours et le travail ainsi que le revenu des parents, les attributs pertinents à l'étude comprennent la présence en classe de l'entité nommée « étudiant » (et non les notes ou l'âge) et le revenu ainsi que le travail de l'entité nommée « parent » (et non pas l'âge ou l'appartenance ethnique).

Lorsque l'objectif de l'exercice d'exploration de données est établi, le choix de la fonction ou de l'algorithme doit être fait. Le modèle est structuré de manière à entreposer les résultats trouvés par l'algorithme de l'exploration de données. Le tableau suivant résume les algorithmes utilisés (une discussion poussée au sujet de ces algorithmes dépasserait la raison d'être de cet article).

Algorithme Description
Règles
d’association
Cet algorithme permet de découvrir des éléments qui sont liés entre eux. L’analyse du panier du consommateur est une façon bien connue d’implémenter cet algorithme. Une question telle que « si un client se procure les articles A et B, que pourrait-il acheter d’autre? » est répondue en examinant les similitudes de A et B avec les autres articles achetés par le passé.
Regroupement Le regroupement crée des groupes d’objets-données selon leur similarité. Les objets au sein d’un même regroupement se ressemblent et sont différents des objets des autres regroupements. Le regroupement permet plusieurs applications variées : en biologie pour élaborer des taxonomies, en affaires pour créer des groupes de clients selon leur comportement d’achat et en géographie pour former des groupes d’emplacements.

Arbres de décision

Un arbre de décision est une structure où une branche ou une rupture sépare un ensemble de données afin de diviser la distribution de ces dernières. Des prévisions peuvent ensuite être faites en appliquant les nouvelles valeurs d’attribut à l’arbre de décision.

Algorithme bayésien naïf

L’algorithme de Bayes possède une méthode systématique d’apprentissage fondée sur les preuves. Il combine des probabilités conditionnelles et inconditionnelles afin de calculer la probabilité d’une hypothèse.

Régression

La régression aide à découvrir la dépendance de la valeur d’un attribut avec les valeurs d’autres attributs au sein de la même entité ou du même objet. La régression ressemble aux arbres de décision, car elle aide à classifier les données, mais elle prévoit les attributs continus plutôt que ceux qui sont discrets.

Séries chronologiques

Une série chronologique représente les données à différents intervalles dans le temps ou tout autre indicateur de chronologie. L’algorithme de séries chronologiques est utilisé pour prédire les valeurs futures, telles que la demande ou le trafic Internet en employant des techniques d’autorégression (une branche particulière de l’analyse de régression qui se concentre sur l’analyse des séries chronologiques) et d’arbres de décision.

Figure 2. Modèle d'exploration traité

Le traitement (ou l'apprentissage) des modèles correspond à l'application d'un algorithme d'exploration de données à des données historisées (aussi connues sous le nom de « données d'apprentissage »). L'algorithme analyse et trouve les relations entre les données. Ces résultats sont produits sous forme de tendances et entreposés dans le modèle d'exploration de données afin de créer un modèle d'exploration traité. Le traitement peut être un processus long puisqu'il applique l'algorithme d'exploration à de grandes quantités de données.

Figure 3. Prévoir grâce au modèle d'exploration traité

Les prévisions consistent à faire traverser un nouvel ensemble de données dans le modèle traité. Les règles et les modèles trouvés durant l'apprentissage sont appliqués aux données afin de créer des prévisions. Ces prévisions peuvent être appliquées en temps réel afin d'agir sur les données à mesure qu'elles se présentent. Le modèle d'exploration traité représente toutes les valeurs des attributs pertinents possibles et comprend une valeur de probabilité associée à chaque combinaison. Les prévisions peuvent regrouper le processus de définition d'une valeur ou d'une étiquette classe déterminée (dans les techniques de classification) ou la prévision de valeurs continues (dans les techniques de régression).

3. Évaluation
L'étape finale correspond à l'évaluation du modèle d'exploration de données. Une approche prudente pour l'exploration de données est d'élaborer plusieurs modèles. Il est possible d'obtenir ce résultat en appliquant plusieurs algorithmes au même ensemble de données ou en élaborant plusieurs modèles en réglant le même algorithme jusqu'à l'obtention du niveau de précision désiré. Les prévisions avec le modèle peuvent être comparées aux résultats connus afin d'atteindre une certaine mesure de précision. Il est conseillé de séparer les données utilisées pour tester un modèle et les données utilisées pour l'apprentissage d'un modèle.

Un graphique des gains cumulatifs fait partie des techniques qui permettent de tester la précision d'un modèle. Dans un graphique des gains cumulatifs, la précision d'un modèle est estimée selon une valeur cible décidée par l'utilisateur. Par exemple, la cible peut être le pourcentage de clients qui répondra à une campagne de courriels. Un point de comparaison (ou un modèle aléatoire) indique toujours qu'un pourcentage X cible sera atteint avec un pourcentage X des données. Ce point indique les résultats d'une campagne durant laquelle les utilisateurs seront choisis au hasard plutôt qu'à l'aide d'un modèle d'exploration. En utilisant les prévisions du modèle, le pourcentage de réponses positives correspond au pourcentage de données sélectionnées pour créer la courbe principale. Le graphique ci-dessous illustre l'exemple suivant.

  1. Selon les données utilisées pour le test, nous savons que 40 % des données représentent la cible. Ces données représentent le modèle idéal (Ideal model).

  2. En utilisant les prévisions du modèle, nous pouvons observer que le modèle peut cibler 100 % de la cible grâce à 90 % des données.

  3. Si nous utilisions le modèle d'exploration (voir « courbe principale » ou Lift curve), nous pourrions cibler 30 % des données (c.-à-d. 90 % de 40 %).

  4. Si nous choisissions les clients au hasard (voir « point de comparaison » ou Baseline), nous ciblerions uniquement 20 % des données (c.-à-d. 50 % de 40 %).

Figure 4. Graphique des gains cumulatifs

Plus la courbe se rapproche du modèle idéal (et, par conséquent, plus elle s'éloigne du point de comparaison), plus précis sera le modèle.

Éditeurs de logiciels d'exploration de données

SAS est un chef de file du marché de l'exploration de données et possède un nombre impressionnant d'implémentations réussies. L'Enterprise Miner offre une gamme d'analyses prédictives et des capacités de visualisation. Ce produit recrée le processus d'exploration de données de SAS, appelé SEMMA : le sampling (échantillonnage) qui permet d'extraire un échantillon représentatif manipulable facilement et de diviser les données pour l'apprentissage et les essais; l'exploration qui permet de chercher des tendances ou des modèles imprévus à l'aide de l'exploration visuelle ou de techniques statistiques; la modification qui aide à traiter les données afin de se concentrer sur celles qui sont pertinentes et d'inclure de nouvelles données périodiquement; le modeling (modélisation) qui permet d'appliquer les algorithmes d'exploration afin de générer des prévisions et l'assessment (évaluation) qui permet de tester le modèle relativement à sa précision et sa qualité.

SPSS offre plusieurs gammes de produits pour les analyses statistiques et l'exploration de données. Le PASW Modeler fournit une visualisation et des fonctions analytiques avancées. Ce logiciel promet de s'intégrer sans problème avec les infrastructures TI existantes et utilise le traitement multifil (multithreading), le regroupement et les algorithmes intégrés pour une haute performance et une bonne extensibilité. En plus d'un large éventail d'algorithmes d'exploration, SPSS offre des analyses de texte et d'exploration Web comme produits supplémentaires.

Angoss Software offre une solution sur demande pour l'analyse des clients qui se concentre sur les stratégies de vente et de marketing. Le KnowledgeSEEKER fournit une visualisation des données d'exploration et le KnowledgeSTUDIO représente l'outil pour la modélisation, avec l'accès à une variété d'algorithmes, notamment les arbres de décision, la régression et le regroupement.

Microsoft s'est joint à l'arène de l'exploration de données avec la mise en marché de SQL Server 2005. L'exploration de données de SQL Server est un des éléments de la suite de veille économique de Microsoft. Il comprend plusieurs algorithmes d'exploration de données jaillissant de la collaboration entre les équipes de recherche de Microsoft et celles de SQL Server. L'exploration de données de SQL Server s'ajoute aux autres services de la suite de veille économique : services d'analyse, d'intégration et de production de rapports.

En conclusion

Il est essentiel de tracer le canevas du processus complexe de l'exploration de données. Cette étape comporte une compréhension approfondie des entités de données d'affaires ainsi que de leurs interrelations. De plus, l'exploration de données ne peut pas être un processus utilisé qu'une seule fois. Il doit plutôt être appliqué de manière itérative et les données d'apprentissage doivent être réévaluées et maintenues périodiquement. Lorsqu'elle est appliquée correctement, l'exploration de données a le potentiel de découvrir des connaissances; une mine d'or dans le monde des affaires.

Pour lire l'article en anglais, cliquez ici.

 
comments powered by Disqus


©2014 Technology Evaluation Centers Inc. All rights reserved.