Inicio
 > Informes e investigaciones > Blog de TEC > Comparación de las soluciones de carga y transfo...

Comparación de las soluciones de carga y transformación de extracto de los vendedores de excelencia de integración de datos e inteligencia comercial

Escrito por: Lyndsay Wise
Publicado: marzo 7 2006

Introducción

Para entender la importancia de los componentes de la carga y transformación de extracto (ETL) y como encajan dentro de la inteligencia comercial (BI), primero se debe apreciar la integración de datos y la importancia de tener datos limpios y exactos que permitan una toma de decisiones comerciales exitosa. Dentro de la industria BI, la integración de datos es esencial. Al capturar la información correcta, las organizaciones son capaces de llevar a cabo análisis, crear reportes y desarrollar estrategias que les ayuden no solo a sobrevivir, sino también a prosperar.

Informatica, un proveedor líder de software de integración de datos empresariales, define la integración de datos como “el proceso de combinar dos o más conjuntos de datos para compartirlos y analizarlos para poder soportar la gestión de la información dentro de un negocio”. En términos de BI, esto significa que se extraen los datos en su forma original y se almacenan en una locación provisional, donde se transforma en el formato que se utilizará en el almacén de datos. El proceso de transformación incluye la validación de datos (por ejemplo, se llena información como el código postal en la base de datos del cliente) y se le vuelve a dar formato a los campos de datos (por ejemplo, se separan los campos de apellido y nombre de los registros del cliente que están unidos en una base de datos pero en otras no). El siguiente paso es cargar los datos dentro del almacén de datos. Entonces, los datos se utilizan para crear preguntas y análisis de datos, como cubos de procesamiento analítico en línea (OLAP) y análisis de tarjetas de registro. En un sentido, lo que les permite a las soluciones BI construir con éxito herramientas analíticas son la extracción de los datos adecuados, la transformación de los mismos por medio de la limpieza y la unión de los registros, y su carga dentro de la base de datos de interés. También es la esencia de la funcionalidad ETL.

Componentes de la integración de datos

Para poder determinar la solución ETL más adecuada, las organizaciones deben evaluar sus necesidades en cuanto a los componentes centrales de los procesos de integración de datos, como se muestra a continuación:

  • Identificación de datos ¿Qué datos necesita extraer la organización y de dónde viene? ¿Qué resultado final, en cuanto a los datos, quiera la organización analizar? Esencialmente, responder estas preguntas significa identificar el origen de los datos y cual es la relación entre las distintas fuentes de datos.

  • Extracción de datos. ¿Qué tan frecuentemente necesita los datos la organización? ¿Mensual, semanal, diariamente o cada hora? ¿Dónde ocurren las actividades de transformación y almacenaje (por ejemplo, en un servidor dedicado a eso o en un almacén de datos, etc.)? Al tomar en cuenta estos factores se identifican las necesidades de frecuencia de datos de la organización. Por ejemplo, los análisis de los datos de ventas pueden requerir que la organización cargue los datos mensualmente o trimestralmente, mientras que algunas otras transferencias de datos se pueden realizar varias veces al día. Al determinar la frecuencia de la carga de datos y la transformación en el almacén de datos o en el servidor dedicado, la organización también debe considerar la cantidad de datos que se tienen que transferir y su efecto en el desempeño del producto.

  • Estandarización de datos. ¿Cuál es el formato de los datos de la organización, y actualmente es compatible con los mismos elementos de datos en otros sistemas? Por ejemplo, si una organización quiere analizar la información del cliente y unir los patrones de compra del cliente con los datos de servicio del cliente, debe conocer si se identifica al cliente de la misma forma en los dos lugares (por ejemplo, por identificación [ID] del cliente, por número telefónico o por nombre y apellido). Esto es muy importante para asegurar que se unen los datos correctos y que se añaden los datos al cliente correcto a través del proceso de estandarización de datos. Otro problema de la estandarización de datos con el que debe lidiar el cliente es identificar cómo va a manejar con el tiempo las funciones de limpieza de datos y de integridad de datos dentro del almacén de datos.

  • Transformación de datos. La organización debe considerar los requisitos de la transformación de datos y la interacción entre los componentes de datos transformados. Las preguntas más importantes son: ¿Cómo se van a reflejar los datos en la nueva base de datos? y ¿Cómo se van a unir esos datos en una base de fila por fila? Responder estas preguntas involucra la identificación de las reglas comerciales y de datos asociadas con los datos para asegurar la exactitud de la carga de los mismos.

  • Carga de datos. ¿Dónde se van a cargar los datos? ¿Cuáles actividades de monitoreo de datos se necesitan? Otras preocupaciones de la carga de datos son la mala identificación de transferencia de datos, cómo se manejan dichas fallas y cómo ocurren las actualizaciones. Por ejemplo, ¿cada carga involucra volver a cargar todo el conjunto de datos, o las actualizaciones se harán utilizando únicamente los campos actualizados dentro de la fuente de datos?

ETL tradicional

Después de evaluar los componentes centrales de la integración de datos, la organización debe investigar sus necesidades tradicionales de BI a través de la organización y evaluar cómo van a evolucionar o cambiar.

Hasta hace poco, ETL involucraba la carga de datos a intervalos de tiempo regulares (por ejemplo, mensual o semanalmente) para conducir las decisiones del desempeño comercial e identificar las oportunidades comerciales. Sin embargo, debido a que las herramientas BI están cada vez más integradas con las funciones comerciales generales, incluyendo la gestión del rendimiento del negocio (BPM) y los requisitos de análisis y reporteo, las necesidades de datos han cambiado de actualizaciones a intervalos mensuales y semanales a actualizaciones en tiempo real. Esto significa que ahora es más importante que las transferencias de datos reflejen exactamente las transacciones comerciales en tiempo real y que ha habido un aumento en la cantidad de transferencias de datos requeridas.

No obstante, ETL en tiempo real no se refiere necesariamente a la transferencia de datos automática conforme se actualizan las bases de datos operacionales. En términos de BI, el tiempo real puede significar diferentes cosas para distintas organizaciones o inclusive para diversos departamentos dentro de estas organizaciones. Por ejemplo, un fabricante automotriz cuyas soluciones tradicionales de almacén de datos (cubos OLAP, etc.) involucran la captura de datos en un determinado momento. El fabricante automotriz puede, por ejemplo, querer rastrear y comparar las ventas mensuales con las ventas de ese mismo mes del año anterior por región, modelo de automóvil, y tamaño de concesionario, por lo que requiere que el almacén de datos se actualice mensualmente. Sin embargo, debido a que las decisiones comerciales del fabricante evolucionan de acuerdo a este análisis, los datos tienen que cambiar de una actualización mensual a una semanal, y así sucesivamente hasta llegar a una demanda de datos en tiempo real. En el caso del fabricante automotriz, los datos en tiempo real pueden ser útiles para identificar el movimiento de las partes de los autos dentro de un almacén relativo a sus locaciones de almacenaje y comparar esta información contra la demanda de estas partes.

Tal cambio en los requisitos de datos afecta tanto el volumen de datos requeridos como cuándo ocurre la carga de los mismos. El resultado final es que, para poder cubrir las necesidades cambiantes de las organizaciones usuarias, los vendedores de ETL y BI se han concentrado en tener ETL en tiempo real y cambiar su funcionalidad de carga de datos para cubrir grandes volúmenes de transferencias de datos.

¿Cómo manejan ETL los vendedores?

Una vez que una organización ha evaluado sus necesidades de integración de datos y de BI, está lista para investigar acerca de los vendedores BI y del tipo de funcionalidad ETL que ofrecen. Es importante hacer notar que aunque, para varios vendedores, ETL es sólo parte de su oferta, el presente artículo se enfoca estrictamente en la funcionalidad ETL que proporcionan dichos vendedores. Cuando se evalúan los vendedores potenciales y su funcionalidad ETL, existen dos tipos de donde escoger. Los vendedores como Cognos, SAS, e Information Builders que proporcionan funcionalidad ETL integrada dentro de su marco general de trabajo BI. Por otro lado, los vendedores de integración de datos o de calidad de datos como DataFlux, Ascential, y Trillium proporcionan soluciones ETL de excelencia. El tipo de vendedor que favorecerá una organización dependerá de sus requisitos de datos.

En general, los vendedores BI complacen a los clientes al proporcionarles el soporte necesario para cambiar poco a poco los requisitos de datos, al igual que al permitirles escoger la locación de las cargas de datos. Esto ayuda a aumentar la velocidad de las transferencias de datos, complace las demandas de la industria por una mayor carga de datos en el almacén de datos dentro de un periodo de tiempo dado.

El administrador de datos 8 BI de Cognos les permite a los usuarios extraer, unir, transformar y cargar datos en un solo paso, así como también utilizar servicios Web para construir y programar construcciones de procesos y trabajos en cualquier servidor localizado dentro de la red. Además, los procesos como la jerarquía y las definiciones de validación de datos están automatizadas, y permiten el soporte necesario para cambiar poco a poco las dimensiones de los datos y los datos tardíos. El administrador de datos permite el proceso de integración de datos dentro de un sistema simple de arrastre.

La integración de datos de SAS utiliza una interfase de usuario conducida por un asistente para proporcionarles a los usuarios finales la facilidad de uso. Dentro de su funcionalidad ETL la habilidad para procesar ocurre de forma nativa en cualquier plataforma dentro de cualquier base de datos. La solución cuenta con el balance de carga de datos para optimizar los recursos, así como para el despliegue escalable para tomar en cuenta las crecientes necesidades de transferencia de datos. Esta última funcionalidad elimina la necesidad de volver a diseñar los procesos conforme cambian los requisitos de los datos. Además, el producto de SAS tiene un ambiente de diseño, prueba y producción, que les permite a los usuarios sincronizar las transferencias de datos y llevar a cabo pruebas.

DataMigrator de Information Builders ofrece una funcionalidad ETL esencial, como la habilidad de agregar, unir, fusionar y aplicar criterios de selección a la información desde cualquier combinación de fuentes de datos. DataMigrator también puede transformar datos de borradores a formatos estructurados basados en las necesidades comerciales individuales y generar y fusionar automáticamente las escritura del protocolo de transferencia de archivo (FTP). Además, DataMigrator permite la carga en volumen o la inserción de datos de fila por fila, y tiene una capacidad de cambio de captura de datos que permite que se carguen los registros cambiados dentro de la base de datos requerida, para poder lograr resultados en tiempo real de manera más sencilla.

Los siguientes vendedores de integración de datos proporcionan la misma funcionalidad que los vendedores BI antes mencionados, pero con un mayor enfoque en la limpieza e integridad de los datos.

DataFlux, adquirido por SAS en el 2000 para extender sus capacidades de almacenaje de datos, proporciona un producto llamado dfPowerStudio que pueden identificar la exactitud de los datos, su validez y los patrones para estandarizar datos. Además, dfPowerStudio puede monitorear y auditar los datos al proporcionar alertas para identificar el estado de los datos organizacionales con el tiempo. Las alertas también se proporcionan para identificar los niveles de calidad de datos y las violaciones a las reglas comerciales. Aunado a esto, dfPowerStudio analiza y corrige las inconsistencias de los datos. Une los datos al agruparlos, fusionar los duplicados dentro de la mejor opción de registro a través de la funcionalidad de arrastre. Además, la interfase de usuario de dfPowerStudio hace que sea más fácil la gestión de la calidad de los datos y el perfil de los mismos.

IBM WebSphere Information Integration (antes Ascential Software) es una serie de integración de datos que les permite a las organizaciones utilizar una sola plataforma de integración de datos para ingresar, limpiar, integrar, transforma y entregar datos así como también para identificar de forma inmediata las anomalías de los datos a través de una fuente, de un perfil de interés y del sistema de análisis. El software de IBM WebSphere mantiene los datos a través del uso de un sólo repositorio abierto en las plataformas del servidor DB2, Oracle, o SQL; valida los requisitos comerciales para identificar si se pueden lograr o no y para asegurar que las fuentes dispares de datos soporten los requisitos.

Trillium, una compañía de Harte-Hanks, también les proporciona a los usuarios una serie de soluciones de software que les permite implementar una solución de calidad de datos. La serie, compuesta por Trillium Software Discovery y Trillium Software System, les permite a los usuarios identificar formatos de datos incorrectos, duplicados, faltas de ortografía y valores redundantes o faltantes, y crear y definir sus propias reglas comerciales para monitorear automáticamente los estándares de datos. Asimismo, el software de Trillium genera diagramas de relación-entidad; crea un repositorio central de datos, metadatos, estadísticas, reglas y documentación; y tiene capacidades para ir de lo general a lo particular en filas individuales de datos. Aunado a esto, se proporcionan actividades continuas de perfil, limpieza y monitoreo de datos, junto con capacidades de búsqueda y filtro de datos.

Conclusión

Dependiendo de los requisitos de datos de una organización y de sus estándares de integridad de datos, la organización debe determinar si los vendedores BI pueden proporcionar la funcionalidad adecuada o si la compañía puede aprovechar la funcionalidad agregada de calidad de datos que tienen los vendedores de calidad de datos y de integración de datos. En cuanto a este respecto, las organizaciones deben darse cuenta que los datos "malos" ocurren con el tiempo, cuando no se ingresan constantemente los datos a lo largo de los sistemas dispares de una organización. Para optimizar las soluciones BI, los datos deben ser limpios y exactos y este proceso necesita mantenerse con el tiempo. Los vendedores de calidad de datos, como DataFlux, le dan más prioridad a la limpieza de los datos al proporcionarle al usuario final características que permiten que las actividades de limpieza de datos y de monitoreo se lleven a cabo regularmente. Este no siempre es el caso de los vendedores BI que ofrecen series integradas. Para utilizar estas series BI integradas se requiere que la organización le proporcione funciones profundas de limpieza de datos al usuario final antes de que se lleven los datos al almacén de datos. Con esto no sólo se desperdicia tiempo sino que también se presentan dificultades para mantener los estándares de datos en los grupos de usuarios finales, donde es más probable que existan inconsistencias de datos debido al error humano. Por lo tanto, para varias organizaciones, es ventajoso invertir más dinero para poder integrar las soluciones de ambos tipos de vendedores, al utilizar las herramientas analíticas mejoradas de una solución BI y la integridad de datos y las capacidades de gestión proporcionadas por los vendedores de integración de datos de excelencia.

 
comments powered by Disqus