Accueil
 > Rapports de TEC > Blogue de TEC > Recueillir des données importantes sur le Web: Une fois u...

Recueillir des données importantes sur le Web: Une fois une impossibilité, maintenant une réalité

Écrit par : Jorge Garcia
Date de publication : juillet 18 2013

Il était une fois, les organisations serait d'extraire des données à partir de plusieurs types de sources de données, y compris les différentes applications logicielles d'entreprise tels que planification des ressources d'entreprise (ERP), la gestion de la relation client (CRM), et d'autres applications. Les sources de données comprenaient également des documents tels que texte brut docs et même des feuilles de calcul. La méthode traditionnelle pour extraire des données provenant de ces sources impliquées une application d'intégration de données connectés à des sources de données via une interface de programmation d'application (API), qui a permis la connexion et la communication entre les différents types de bases de données ou sources de données.

Cependant, avec l'explosion récente du contenu Web, de même que l'évolution rapide des systèmes logiciels, d'autres types d'extraction de données devenues nécessaires. Les organisations ont besoin maintenant d'autres façons de recueillir des informations en provenance de grandes quantités de pages Web externes, à des fins telles que la surveillance de la confiance des clients, mesurer les résultats de marketing, et la collecte de contenu Web à des fins de recherche.

Mais pour ce type d'extraction de données, les entreprises peuvent ne pas avoir une API disponible, soit parce qu'une API pour cela n'existe pas, ou parce que l'entreprise n'a tout simplement pas y avoir accès. En outre, certaines organisations doivent extraire des informations à partir de leurs systèmes existants, et peuvent ne pas avoir une API disponible pour la connexion via des applications d'intégration de données traditionnelles.

Vendeurs Certains logiciels sont actuellement répondre à ces besoins spécifiques en proposant des outils d'intégration de données Web pour recueillir des données sans passer par l'utilisation d'une API, et se concentrer sur la collecte de cette information en tirant parti des protocoles basés sur le Web comme langage de balisage extensible (XML), hypertext markup language (HTML), JavaScript, ou protocole d'accès simple objet (SOAP) (entre autres technologies) pour extraire ces informations. Cette tâche est loin d'être facile, car la normalisation des différentes technologies Web est nécessaire pour l'extraction de données et de la transformer en une source unique d'information.

L'utilité potentielle de cette technologie est énorme. Certains cas dignes de mention comprennent l'extraction de données à partir des systèmes existants, l'extraction d'information pour l'exploration de données, et l'extraction de données pour le texte et l'analyse des sentiments.

Récemment, deux fournisseurs de ce type de technologie sont venus à mon attention: Kapow Software et Connotate . Ces fournisseurs peuvent changer la façon dont nous extraire, transformer et intégrer des données provenant de sources disparates.

Kapow Katalyst

logiciel de Kapow

(anciennement Kapow Technologies), basé à Palo Alto, en Californie (États-Unis) et possède des bureaux au Danemark, en Allemagne et au Royaume-Uni, a une liste de clients couvrant un large éventail d'industries et d'organisations, y compris ESPN , AT & T et Audi . Le vendeur positionne son application Kapow Katalyst en tant que plate-forme d'intégration de données d'entreprise qui utilise la technologie d'intégration de données basée sur un navigateur (ie, sa Kapow Extraction Browser breveté ) pour extraire des données à partir de n'importe quel application Web et de les traiter pour l'intégration dans la plate-forme ou le format désiré.

(IDE) crée des emplois d'extraction qui collectent des données à partir du Web, l'extraction de données à partir des pages externes (par exemple, les portails, blogs et autres contenus sur le Web) ou des systèmes existants de l'environnement de développement intégré

de Kapow pour lesquelles la seule façon d'extraire de l'information se fait par un mécanisme basé sur le Web.

Figure 1. Kapow Katalyst: Design Studio

Kapow Katalyst peut charger ou envoyer des données à partir d'une grande variété de sources, sans une API, en utilisant des technologies basées sur le Web pour extraire des données du front-end et les couches logiques d'application, ainsi que l'aide de SQL pour la couche de base de données. Ces fonctionnalités fournissent Katalyst de Kapow avec un ensemble polyvalent de façons d'acquérir des informations.

Du point de vue de l'entreprise, l'une des caractéristiques intéressantes de Kapow Katalyst est sa capacité à accéder à des informations à partir de solutions basées sur le cloud et le contenu des médias sociaux, une place de marché en croissance rapide dans l'industrie du logiciel.

Certains des éléments clés de Kapow Katalyst:

  • Design Studio , l'IDE qui permet au produit de Kapow pour créer, tester et gérer les processus de données à base de règles (appelés «robots») d'une manière complètement graphique.
  • RoboServer , un serveur d'exécution qui permet l'utilisation de tous les robots performants extraction basée sur le Web, la transformation et les processus d'intégration.
  • Une extraction navigateur pour intégrer les données extraites avec l'application désirée, que ce soit une base de données relationnelle, une application d'entreprise, ou d'une application en nuage.
  • Une console de gestion d' pour programmer des tâches, surveiller les performances et gérer les rôles et les autorisations, il peut également se transformer en robots API.
Les capacités de

Kapow pour travailler avec des données non structurées sont attrayants. L'application dispose d'un ensemble complet de fonctions de transformation et d'intégration de travailler avec des chaînes, des nombres, et la date / heure types de données, avec des compétences spécifiques pour travailler avec les transformations qui traitent avec des étiquettes et des URL HTML.

Kapow Katalyst est disponible en divers modèles de prestation: sur site, hébergée ou via un-as-a-Service Software (SaaS) licence.


Figure 2. Kapow Katalyst: Robot directeur


Agent communautaire de Connotate

Agent communautaire , New Brunswick, New Jersey (États-Unis) basée Connotate offre une gamme de produits qui permet aux entreprises de surveiller, extraire, transformer et intégrer l'information à partir de Web-based interne et externe disparate sources. Communauté de l'agent a été créé pour les utilisateurs non-techniques pour concevoir et automatiser la surveillance des données Web personnalisée et des applications d'extraction. Ses clients incluent McGraw-Hill , The Associated Press et Thomson Reuters .

Figure 3. Connotate-texte et l'analyse des sentiments

Agent communautaire utilise un jeu virtuel de l'emploi de procédés appelés «agents intelligents» pour surveiller et recueillir le contenu Web. Ces agents logiciels peuvent être personnalisés ou «formés», dans le jargon de Connotate-aide d'un simple pointer-cliquer méthode pour réaliser le suivi des données Web en temps réel et la collecte de sources internes et externes. Communauté Agent utilise une approche brevetée d'abstraction visuelle pour aider les utilisateurs à identifier facilement les éléments individuels de données provenant d'une source Web spécifique et ensuite former des agents intelligents de surveiller et d'extraire l'information désirée.

Agent communautaire permet texte et analyse de sentiment basé sur des algorithmes propriétaires pour mesurer le ton de l'auteur et l'intention, ainsi que l'inclinaison / de partialité présent dans toute particulière article-un élément essentiel dans l'évaluation de la satisfaction du client et la perception des médias. Les autres caractéristiques comprennent la capacité à établir des domaines clés pour identifier les éléments de données spécifiques, ainsi que la possibilité d'accéder extensible langage de reporting de l'entreprise documents (XBRL) et de les visualiser dans un format utilisable structuré.

La principale composante de la Communauté de l'agent est Agent studio . Dans cet IDE, les utilisateurs peuvent créer, modifier, publier, et le suivi des agents intelligents. Agent Studio utilise des modèles qui reconnaissent contenu modèles «types» pour cartographier et définir le contenu des métadonnées. Cela permet aux nombres de masse des agents devant être créés et déployés rapidement.


Figure 4. Connotate-Agent studio

La composante secondaire de la Communauté de l'agent est le Agent Library , qui permet aux utilisateurs de personnaliser agents préexistants ainsi que de gérer la programmation et l'exécution des activités des mandataires et des abonnements source. Une autre composante de la Communauté de l'agent est Portal Agent , un environnement de portail dans lequel les utilisateurs peuvent voir les résultats de l'agent dans un navigateur Web.

Alors que la Communauté de l'agent est conçu pour les utilisateurs non-techniques, les utilisateurs plus férus de technologie peuvent profiter de la compagnie la Developer Edition , qui donne accès au code source sous-jacent et facilite le développement des plus sophistiqués, applications d'agents intelligents personnalisés.

Avec un riche ensemble de fonctionnalités point-and-clic modèles et, Communauté de l'agent est adapté pour les organisations à la recherche d'un système de suivi des données Web et outil de collecte ou un outil d'analyse du texte et sentiment, en particulier pour les entreprises chargées de la gestion de grandes quantités situé à l'extérieur de l'information sensible au temps.

Un dernier mot

données Web

se développe à un rythme rapide, et on peut s'attendre à de nouvelles technologies Web et des outils pour arriver sur les lieux afin rapide. En outre, comme les outils de médias sociaux atteignent de plus en plus d'utilisateurs, les organisations devront continuer à creuser toujours plus loin dans le Web. Certaines applications d'intégration de données traditionnelles soutiennent déjà ce type de fonctionnalité, ou l'appuierons dans un proche avenir. Nous n'avons pas vu le dernier de cette histoire. Restez à l'écoute.

 
comments powered by Disqus
Popular Searches


©2014 Technology Evaluation Centers Inc. All rights reserved.