Inicio
 > Informes e investigaciones > Blog de TEC > Recogiendo datos útiles de la Web: lo que antes ...

Recogiendo datos útiles de la Web: lo que antes era imposible es ahora un hecho

Escrito por: Jorge Garcia
Publicado: diciembre 21 2010

Erase una vez, cuando las organizaciones extraían datos de varios tipos de fuentes, incluyendo diferentes aplicaciones de software como los sistemas para la planeación de los recursos empresariales (ERP) y las aplicaciones para la gestión de las relaciones con los clientes (CRM), entre otras. Las fuentes de datos incluían también documentos con texto sencillo e incluso hojas de cálculo. La forma tradicional de extraer datos de dichas fuentes involucraba una aplicación de integración de datos que se conectaba con las fuentes de datos vía una interfaz de programación de aplicaciones (API), la cual permite la conexión y la comunicación entre diferentes tipos de bases y fuentes de datos.

Sin embargo, con la reciente explosión del contenido Web, además de la rápida evolución de los sistemas de software, otros tipos de extracción de datos se han vuelto necesarios. Las organizaciones ahora requieren de formas alternativas para recopilar información proveniente de una vasta cantidad de páginas Web, para cumplir con metas como monitorear los sentimientos de los clientes, medir los resultados del mercadeo y recopilar contenido Web para realizar investigaciones.

Pero para este tipo de extracción de datos, es posible que las empresas no dispongan de un API, o porque un API para esto no existe, o simplemente por la empresa no tiene acceso a uno. Además, algunas organizaciones necesitan extraer información de sus sistemas viejos y es posible que no tengan un API disponible para conectarlo vía las aplicaciones tradicionales de integración de datos.


Algunos proveedores de software está intentando satisfacer estas necesidades especificas ofreciendo herramientas de integración de datos Web, que permiten recopilar información sin necesidad de utilizar una aplicación API por medio de las ventajas que proveen los protocolos basados en la Web, como el lenguaje de etiquetas extensibles (XML), lenguaje de etiquetas de hipertexto (HTML), JavaScript o protocolo estándar de acceso a objetos (SOAP) entre otras tecnologías para extraer esta información. Esta no es una tarea fácil, ya que para la extracción y transformación de datos en una sola fuente de información, se requiere la estandarización de varias tecnologías Web. 


Los posibles usos de esta tecnología son enormes. Algunos casos dignos de mencionar incluyen: la extracción de datos de los sistemas viejos, la extracción de información para la minería de datos y la extracción de datos para el análisis de textos y el análisis de sentimientos.


Recientemente, dos de los proveedores de este tipo de tecnología llamaron mi atención: Kapow Software y Connotate. Estos proveedores pueden estar cambiando la forma en la cual extraemos, transformamos e integramos datos de fuentes dispares.
 
Kapow Katalyst


Kapow Software (antiguamente Kapow Technologies), ubicada en Palo Alto, California (EE.UU) con oficinas en Dinamarca, Alemania y el Reino Unido, tiene una lista de clientes que incluyen una amplia gama de industrias y tipos de organizaciones, como ESPN, AT&T y Audi. El proveedor posiciona su aplicación Kapow Katalyst como una plataforma para la integración de datos empresariales que utiliza tecnología para la integración de datos basada en un navegador (ejemplo: su patentado Kapow Extraction Browser) para extraer datos de cualquier aplicación Web y poder procesarla para su integración en la plataforma o formato de su preferencia.


El ambiente de desarrollo integrado (IDE, por sus siglas en inglés) de Kapow crea tareas de extracción que recopilan datos de la Web, extrayendo datos de páginas externas (como portales, blogs o foros y otros contenidos basados en la Web) o de sistemas antiguos de los cuales solo se puede extraer información vía mecanismos basados en la Web.

Fig. 1. Kapow Katalyst: Design Studio
 
Kapow Katalyst puede cargar o empujar información de una amplia gama de fuentes sin un API, utilizando tecnologías basadas en la Web para extraer datos de la información presentada en la pantalla y de la información en las capas lógicas de la aplicación, y utilizando SQL para la capa de la base de datos. Estas características proveen a Kapow Katalyst con una serie de formas versátiles de adquirir información.

Desde la perspectiva empresarial, una de las características interesantes de Kapow Katalyst es la habilidad de acceder a información de soluciones basadas en la nube y contenidos de medios sociales, un mercado en rápido crecimiento dentro de la industria del software.

Algunos de los componentes clave de Kapow Katalyst:

• Design Studio, es el IDE que le permite al producto de Kapow crear, probar y gestionar procesos de datos basados en reglas (llamados “robots”) de forma totalmente gráfica.
• RoboServer, un servidor de ejecución que permite la operación de todos los robots que están realizando procesos de extracción, transformación e integración basadas en la Web.
• Un Extraction Browser (navegador de extracción) para integrar los datos extraidos con la aplicación deseada, bien sea una base de datos relacional, una aplicación empresarial o una aplicación basada en nubes.
• Una Management Console (consola de administración) para programar las tareas, monitorear el rendimiento y manejar los roles y los permisos, que puede también transformar los robots en APIs.


La capacidad de Kapow para trabajar con datos sin estructurar es muy llamativa. La aplicación tiene una gama completa de funciones para la transformación e integración para trabajar con datos de tipo hilos (strings), números y fechas, además de habilidades especificas para trabajar con transformaciones que tiene que ver con HTML, etiquetas y direcciones electrónicas (URL, por sus siglas en inglés).


Kapow Katalyst está disponible en varios modelos de entrega: instalado, hospedado o licencias vía SaaS (Software como servicio).


Fig. 2. Kapow Katalyst: Robot Manager
 

Agent Community de Connotate

Con Agent Community, Connotate ubicado en New Brunswick (Canadá) y New Jersey (EE.UU) provee un producto que permite a las organizaciones monitorear, extraer, transformar e integrar información de fuentes dispares internas o externas, basadas en la Web. Agent Community fue creado para usuarios no técnicos para diseñar y automatizar el monitoreo personalizado de datos y aplicaciones de extracción Web. Sus clientes incluyen McGraw-Hill, The Associated Press y Thomson Reuters.


Fig. 3. Connotate: análisis de sentimientos y textos
 
Agent Community utiliza un grupo virtual de procesos de tareas llamados “agentes inteligentes” para monitorear y recopilar contenido Web. Estos agentes de software pueden ser adaptados o "entrenados" en el lenguaje de programación de Connotate, utilizando el método point-and-click (señale y presione) para lograr el monitoreo y recopilación de datos Web desde fuentes internas y externas. Agent Community utiliza una perspectiva de abstracción visual patentada para ayudar a los usuarios a identificar elementos de datos de fuentes Web específicas y subsecuentemente entrenar agentes inteligentes para monitorear y extraer la información deseada.

Agent Community permite el análisis de textos y de sentimientos basado en sus algoritmos registrados para medir el tono e intención del autor, así como el enfoque/inclinación presente en cualquier artículo particular, un componente critico en la evaluación de la satisfacción de los clientes y en la percepción de los medios de comunicación. Otras características incluyen la habilidad de establecer espacios clave para identificar elementos de datos específicos, así como la habilidad de acceder a documentos XBRL (extensible business reporting language) y visualizarlos en un formato estructurado y utilizable.


El componente principal de Agent Community es Agent Studio. Con este IDE, los usuarios pueden crear, modificar, publicar y monitorear los agentes inteligentes. Agent Studio utiliza plantillas que reconocen los patrones de “tipos” de contenido para mapear y definir el contenido metadato. Ello permite la creación y despliegue rápido de un masivo número de agentes. 


Fig. 4. Connotate: Agent Studio
 
El componente secundario de Agent Community es Agent Library, el cual permite a los usuarios la personalización de agentes pre-existentes así como la administración del cronograma y ejecución de las actividades de los agentes y las subscripciones de fuentes. Otro componente de Agent Community es su Agent Portal, un ambiente de portal en el cual los usuarios pueden ver los resultados de los agentes en un navegador de la Web (red).

Aunque Agent Community fue diseñado para usuarios que no tienen conocimientos técnicos, aquellos que los tienen pueden aprovechar la edición para desarrolladores (Developer Edition), la cual permite el acceso al código fuente y facilita la creación de aplicaciones de agentes más sofisticados y con mayor inteligencia personalizada.


Con un variado grupo de plantillas y las funcionalidad de simples de señalar y presionar (point-and-click), Agent Community es ideal para las organizaciones que buscan herramientas para el monitoreo y recopilación de datos de la red, o herramientas de análisis de textos y de sentimientos, particularmente para las empresas en la tarea de manejar grandes cantidades de información sensible ubicada externamente.
 
Por último


Los datos de la red están creciendo a un ritmo acelerado, pero podemos esperar la pronta llegada de nuevas tecnologías al escenario. Adicionalmente, en la medida en que las herramientas de medios sociales llegan a más y más usuarios, las organizaciones deberán continuar escavando aun más profundamente en la red. Algunas aplicaciones tradicionales de integración de datos estan proveyendo ya este tipo de funcionalidades o lo harán en el corto plazo. No hemos visto aún el final de esta historia. Manténgase sintonizado.

 
comments powered by Disqus

Búsquedas recientes:
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Others