Inicio
 > Informes e investigaciones > Blog de TEC > Los almacenes de datos y el acceso a business in...

Los almacenes de datos y el acceso a business intelligence

Escrito por: Predrag Jakovljevic
Publicado: julio 15 2005

¿Acceso directo o un almacén de datos para el mercado medio?

Durante mucho tiempo, el almacenamiento de datos fue sinónimo de business intelligence (BI), al grado de que se creía firmemente que BI no era posible sin un almacén de datos. De hecho, un almacén de datos es útil para las empresas que tratan con una cantidad exorbitante de datos, ya que les permite aprovechar los activos de información y dar soporte tanto a la creación de reportes y como al análisis en la empresa. Los almacenes de datos también son una solución técnica al problema que representa tener varios sistemas, almacenes de datos distintos y datos históricos que crecen con rapidez. Esto se debe a que la información se obtiene de varios sistemas que funcionan por transacciones, como hojas de cálculo, planificación de los recursos de la empresa (ERP), gestión de la cadena de suministro (SCM) o gestión de las relaciones con los clientes (CRM), y que se almacena en un depósito central donde se transforma, limpia y consolida.

Durante los noventa, este modelo creció hasta constituir la base de toda la industria de almacenamiento de datos, con el hardware, el software y los vendedores consultores para darle soporte (consulte The Necessity of Data Warehousing).

Muchos defensores del almacenamiento de datos también creen que una base de datos de transacciones no es capaz de dar soporte a las demandas simultáneas de los sistemas empresariales y las aplicaciones de BI. Por ello, afirman que los usuarios del negocio que realizan consultas a la base de datos diezman el desempeño de todo el sistema de transacciones. Sin embargo, no todos saben que los principales vendedores de bases de datos han creado sistemas de gestión de bases de datos relacionales (RDBMS) que son completamente capaces de soportar ambas funciones. De cualquier forma, la mayoría de los vendedores de BI y aplicaciones empresariales siguen usando una pequeña parte de la funcionalidad que ofrecen los sistemas de gestión de bases de datos (DBMS). De forma concreta, sus desarrolladores de productos se enfocan en el diseño entre plataformas, obligándolos a aprovechar únicamente el número limitado de funciones que tienen en común las bases de datos principales.

Por el contrario, en lugar de duplicar estas herramientas, Vanguard trata de aprovecharlas de forma óptima dentro de la solución general. Para ello, presentó Direct Access, la base tecnológica de integración de la información de la empresa (EII) de su solución de BI Graphical Performance Series (GPS). Esta solución lleva la información integrada de la empresa directamente a los encargados de la toma de decisiones, sin tener que depender de un almacén de datos. Esto representa ahorros potenciales de tiempo, aumentos en la agilidad del negocio y reducción de los costos. La solución GPS de Vanguard ha sido capaz de acceder directamente a la información que se almacena en los sistemas empresariales, sin requerir que los negocios muevan u organicen los datos o inviertan en una tecnología de almacenamiento de datos compleja y difícil de manejar.

Los negocios reúnen una cantidad infinita de datos en diferentes sistemas, formatos y ubicaciones, por lo tanto, es difícil mantener y sincronizar una copia redundante de los datos originales en un depósito central. A medida que dicho proceso se vuelve más complejo, aumentan los costos administrativos y disminuye el valor del negocio. Al mismo tiempo, la naturaleza tan competitiva del mercado de las bases de datos relacionales produce mejoras continuas a la funcionalidad de las bases de datos fuente.

El mejorar el poder de procesamiento y la funcionalidad de las bases de datos, el enfoque más lógico es cambiar el tamaño del servidor de las bases de datos para que pueda manejar las cargas de trabajo de las transacciones y los reportes. Vanguard cree que resulta esencial aprovechar todas las capacidades que tienen las bases de datos. Por ello, la solución GPS incluye acceso a los datos de cada base y aprovecha por completo las diferentes características de cada una de ellas. Gracias a su experiencia, el vendedor ha demostrado que cambiar el tamaño del servidor de bases de datos para que dé soporte a las funciones de reportes y transacciones puede ser mucho menos costoso y más eficaz que crear y mantener un almacén de datos. Además, los costos de gestión de TI relacionados con la afinación de la base de datos de transacciones pueden ser menores que el costo de mantenimiento continuo de un almacén de datos, que se vuelve una misión y puede hacer que las empresas pierdan de vista el propósito original del mismo.

Sexta parte de la serie Reporte de estado de business intelligence.

Las mejoras al modelo del almacén de datos

Cuando se creó el modelo del almacén de datos, se creía que era necesario organizar los datos en un almacén para que los usuarios pudieran gozar de un desempeño razonable de las consultas. Sin embargo, en este caso, es posible que este desempeño mejore dramáticamente simplemente al aprovechar las características de las bases de datos fuente, sobre todo ahora que Oracle, IBM y Microsoft ofrecen capacidades de creación de resúmenes declarativos que automatizan el proceso de creación y mantenimiento de tablas de resúmenes. Estas características de las bases de datos, que se conocen como visualizaciones materializadas, tablas de consultas materializadas o visualizaciones catalogadas, pueden combinarse con la función de meta datos “consciente de los resúmenes” de Vanguard, para permitir que los usuarios especifiquen y desplieguen la creación de resúmenes declarativos.

Vanguard utiliza esta capacidad para limitar el impacto de procesamiento que tienen las consultas de los usuarios y maximizar el desempeño de la solución. Al incorporar la creación de resúmenes declarativos directamente en sus motores de bases de datos, los principales vendedores eliminaron, en algunos casos, una de las principales justificaciones del almacenamiento de datos. Las grandes empresas de bases de datos -Oracle, IBM y Microsoft- también están buscando formas para aprovechar XML y permitir su integración en formatos múltiples con datos que no son de ellos.

De hecho, aunque la solución BI de Oracle tiene capacidades de almacenamiento y extracción, transporte y carga (ETL) de datos, con frecuencia tiende a evitar la consolidación innecesaria de los datos, sobre todo porque en el pasado, las empresas vaciaban toda la información en un almacén de datos. Creían que si colocaban todos sus datos en una base o un almacén de datos, podían eliminar el problema del aislamiento funcional y permitir que todas las personas compartieran la información y trabajaran con las mismas reglas.

Sin embargo, con frecuencia se descubre que cuando una empresa crea un almacén de datos, se enfoca en llevar los datos de los sistemas fuente al almacén, dejando que los usuarios decidan si desarrollan reportes o redactan consultas, un proceso que toma tiempo. Así, la forma correcta de hacerlo sería mantener la creación de reportes de gestión en el mismo sistema que las transacciones mismas, para que tengan el mismo contexto de lo que causó la transacción. Este enfoque permite que los usuarios vean los detalles de la información y exploren las métricas o los indicadores clave de desempeño (KPI) hasta la transacción que pudieron haber provocado el problema. Asimismo, al dejar todo en el mismo sistema o en el caso fuente donde ocurrió la transacción, los usuarios pueden pasar a través de la misma y corregir el error.

Asimismo, la ley Sarbanex-Oxley (SOX) y otros requisitos de reportes, hacen que los negocios deban apegarse a normas de precisión y responsabilidad más altas, haciendo que la transparencia del negocio sea vital. Sin embargo, por definición, un almacén de datos es una copia de los registros originales de los datos, y constantemente se está cambiando, actualizando o consolidando, ya que combina datos de varios sistemas que tienen distintas reglas del negocio. Por el contrario, Direct Access de Vanguard obtiene la información directamente de los sistemas de transacciones –los verdaderos sistemas de registros-, así que se elimina el problema de la “versión” de los datos que se usa para los reportes.

Existe también el dilema de integrar una gran cantidad de datos en un almacén cuando únicamente se necesita una pequeña parte. La naturaleza de la información corporativa es dinámica, por lo tanto, no resulta práctico tratar de mantenerla duplicada y sincronizada en varias bases de datos cuando, por ejemplo, se fusiona con otra entidad, sobre todo si no se accede con frecuencia a dichos datos. Los cambios que se hacen al modelo tradicional de almacén de datos para traer datos nuevos pueden tomar meses, y las soluciones de federación de datos tipo EII no son tan frágiles como los scripts de procedimientos ETL, y pueden aceptar los cambios necesarios con mayor rapidez.

La necesidad de tener información limpia

Otro elemento que a través del tiempo ha controlado el modelo del almacén de datos, es la necesidad que se percibe de “limpiar” la información antes de liberarla para la creación de reportes. Muchas empresas siguen invirtiendo grandes cantidades de tiempo, recursos humanos y dinero en la limpieza de sus datos y aplicándole terminología constante como un paso necesario para la creación de su almacén de datos.

Como mencionamos antes, algunos vendedores y sus clientes creen que los sistemas de transacciones son “los sistemas de registros” y que los almacenes de datos crean una división artificial entre las transacciones y la creación de reportes. Sin embargo, cuanto más se copian, duplican o modifican los datos, menos precisos se vuelven. Por ello, puede resultar más eficaz y rentable corregir los problemas de los datos en la fuente, en lugar de mover y modificar las bases de datos. Para dar otro ejemplo relacionado con Oracle, parece que los clientes de Vanguard descubren con frecuencia que pueden mejorar la calidad de los datos con rapidez gracias al nivel de visibilidad que Direct Access proporciona a sus sistemas, como darle un lugar único para mantener la información y un proceso de gestión de datos mucho más simplificado.

También se cree que si los usuarios del negocio obtienen acceso a las bases de datos empresariales y las herramientas de consultas de datos brutos, provocarán estragos en el sistema. Esto puede suceder si el desarrollador de productos de BI no comprende el problema potencial y lo trata como un factor crítico para el negocio. Así, Vanguard ha desarrollado la experiencia y las reglas del negocio específicas para que las bases de datos nativas eliminen la probabilidad de dañar los sistemas de transacciones. De esa forma, los usuarios no tienen control directo sobre el lenguaje estructurado de consulta (SQL) y no pueden crear consultas inválidas. Para eso, la capa semántica adecuada garantiza que los usuarios del negocio están protegidos contra la complejidad de los sistemas subyacentes y que los sistemas de transacciones de la empresa funcionan sin problemas.

De acuerdo a su experiencia, Vanguard ha descubierto que, en empresas que tienen varias bases de datos fuente, puede optimizar con mayor eficacia cada una por separado, en lugar de crear un almacén de datos central. Esto se debe a que Direct Access encamina los paquetes de datos hacia los usuarios de forma paralela, para ensamblarlos en su propia PC. La cantidad total de bases de datos que proporcionan información no debe afectar el desempeño de la carga de cubos, ya que cada una contribuye de forma independiente.

Vanguard cree que el uso de un modelo semántico y de middleware integrado permite usar con eficacia el poder de procesamiento de cada nivel –base de datos, nivel medio y cliente, cuyo diseño obvia la necesidad de contar con un almacén de datos físico central y proporciona información integrada que puede ser graduada por demanda, aún cuando provenga de varias fuentes de datos dispares. El BI controlado por la demanda requiere una capa semántica rica que “vuelva virtuales” las bases de datos para el usuario final. Por ello, UIM de Vanguard tiene base en una solución de meta datos de tres niveles que reúne varias fuentes dispares y las presenta en una visualización empresarial coherente.

  1. The Business Model—controla la interacción de los usuarios y proporciona la traducción esencial de la terminología de la base de datos en un lenguaje funcional del negocio.

  2. The Runtime Model—acepta solicitudes de los usuarios, identifica las fuentes de datos correctas y genera las consultas necesarias.

  3. The Database Model—accede a las tablas de las bases de datos mediante técnicas nativas a cada base de datos.

Un depósito central o un almacén de datos hace que sea conveniente “manipular” los datos y realizar predicciones, pero, en el ambiente de negocios actual, la información está dispersada en varias bases de datos, a veces en aplicaciones distintas, que pueden estar en ubicaciones físicas diferentes. Por lo tanto, existen otros vendedores de BI o de gestión del desempeño de la empresa (EPM) que están creando soluciones capaces de reunir la información a partir de varias fuentes de datos. Por ejemplo, Silvon Software, ha hecho evolucionar su producto Data Tracker client/server para que extraiga los datos de una sistema empresarial de transacciones y los cargue en una solución por web rejuvenecida, llamada Stratum, que puede obtener datos de ERP, CRM, hasta punto de ventas, e integrarlos y validarlos. Algunos de los modelos actuales de Stratum, que tienen capacidades BI incluidas, son análisis de CRM, el desempeño del inventario, el desempeño de la mercadotecnia, el desempeño de la fabricación, el desempeño de la rentabilidad, el desempeño de las ventas y la gestión de las relaciones con los proveedores (SRM).

Cuestionar las soluciones existentes para almacén de datos

Los hechos anteriores han afirmado la creencia de que el almacenamiento de datos es ahora un medio para llegar a un fin, y no un requisito. A pesar de la gran adopción del concepto de almacenamiento de datos en las grandes empresas, los retos y los problemas fundamentales siguen estando presentes en las implementaciones reales. Desde la perspectiva del negocio, un almacén de datos es un proyecto complejo y tardado que exige inversiones en tiempo, personas y hardware, casi siempre con un caso del negocio poco claro.

Con frecuencia, es difícil relacionar el almacenamiento de datos con las mejoras directas a los resultados netos de una empresa. Esto no es bueno en el clima de negocios actual, donde la mayoría de los proyectos de TI deben mostrar que recibirán un pago claro dentro de un periodo determinado antes de recibir fondos. Una vez iniciado un proyecto de almacén de datos, la escala y la complejidad de la tarea crea riesgos para la mayoría de los negocios, alimentados por los datos legados de sistemas antiguos, los problemas con la extracción y la integridad de los datos y los problemas con la relevancia del contenido.

Algunos vendedores punto com de EII han tomado medidas para alinearse con sus contrapartes de BI, confirmando la relación entre ambas tecnologías. Concretamente, Composite acaba de cerrar un negocio con Cognos para incluir sus herramientas EII en el software de consultas y reportes ReportNet de Cognos, mientras que MetaMatrix ha establecido sociedades técnicas del mismo tipo con Business Objects y Hyperion Solutions.

Como mencionamos antes, en 2003, Actuate adquirió al antiguo especialista de EII, Nimble, para integrar las capacidades de federación de consulta de datos en su plataforma de creación de reportes empresariales. Con la incorporación de la plataforma la tecnología abierta de integración de datos por XML de Nimble, los clientes de Actuate pueden diseñar con mayor facilidad aplicaciones de BI que proporcionen una visualización integrada de su negocio. Asimismo, esta incorporación de las capacidades de Nimble ha permitido que la plataforma BI de Actuate se integre con una gama más amplia de sistemas habilitados por XML. También para obtener datos y crear visualizaciones unificadas con relativa rapidez y de forma económica, IBM lanzó su producto Information Integrator en 2004, y el especialista en integración de las aplicaciones empresariales (EAI), BEA Systems, anunció su iniciativa de integración de Liquid Data, que reside frente a las bases de datos y los sistemas de archivos y que permite que los usuarios busquen datos en varias ubicaciones.

Sin embargo, Direct Access (o la tecnología EII, en un contexto más amplio) no siempre es una alternativa para un almacén de datos, ya que estas soluciones de integración de datos aumentan la creación de reportes de BI en series históricas de tiempo con detalles operativos más nuevos, y no realizan un procesamiento analítico complejo y profundo, como las consultas de varios terabytes, que siguen siendo un requisito para muchos negocios. La tecnología puede ser especialmente funcional en situaciones en las que los usuarios quieren obtener datos detallados que normalmente se omiten en los almacenes de datos. Así, apresurarse con una capacidad EII puede permitir que las empresas complementen sus almacenes de datos con consultas más ligeras que funcionen directamente contra los datos actuales, o del día, que provienen de sistemas de transacciones.

A pesar de que empresas como Vanguard, Oracle, IBM y otras empresas pequeñas del nicho de EII como Certive, MetaMatrix, Avaki Corporation (recientemente adquirida por Sybase), Composite Software e Ipedo, han adoptado este enfoque, sigue siendo una idea naciente y, por consiguiente, un mercado que está surgiendo y que requiere una mayor prueba de concepto. Estos productos tienen la capacidad para mapear varios datos en un solo modelo de datos y procesar consultas sobre la marca con relativa rapidez. Sin embargo, si se usa EII únicamente para BI, puede resultar difícil tratar con los cambios que se hacen al negocio o analizar las tendencias a lo largo de la historia. Además, los prospectos pueden seguir preocupándose por la seguridad de la calidad de sus datos en ambientes donde los datos son diversos y el impacto que tiene EII en los sistemas de transacciones (es decir que la cadena de EII es tan rápida como su componente más lento).

Por lo tanto, actualmente la tecnología está lejos de ser adoptada de forma comercial, a diferencia de algunas tecnologías más maduras similares a las herramientas ETL, la replicación de datos y las tecnologías de portales, como confirmó la compra que acaba de hacer IBM de Ascential, el líder de ETL. Mientras tanto, los vendedores de unificación de datos virtuales/EII deben tratar de educar al mercado y obtener una cantidad mínima de clientes para lograr este enfoque. Por el momento, los que tengan éxito serán quienes posicionen sus herramientas de forma que complementen el almacenamiento de datos convencional, sin reemplazarlo. De acuerdo a algunas encuestas realizadas recientemente, un porcentaje importante de usuarios mencionaron la falta de un almacén de datos centralizado como la razón principal para posponer la adopción de herramientas analíticas -como los tableros- en sus empresas. Así, aunque los clientes están diseñando e implementando arquitecturas modernas de información, pueden aprovechar EII como tecnología provisional para explorar inmediatamente los datos que están en fuentes dispersas. De alguna forma, el mercado ha sido validado por las adquisiciones que realizaron Sybase y Actuate de Avaki y Nimble, respectivamente, y las sociedades entre Cognos y Composite y Business Objects e Ipedo.

Con esto concluye la sexta de siete partes que conforman esta nota.

La primera parte detalló la historia y el estado actual; la segunda exploró las herramientas BI contemporáneas; la tercera describió lo que está disponible; la cuarta presentó el panorama para el mercado de BI/CPM; la quinta habló de los vendedores Geac y Point Solutions y la séptima dará recomendaciones a los usuarios.

Acerca de los autores

Olin Thompson es director de Process ERP Partners. Cuenta con más de 25 años de experiencia como ejecutivo en la industria de software. Se le conoce como “el padre del ERP de procesos” y escribe y da conferencias sobre temas de obtención de valor a partir de ERP, SCP, e-commerce y el impacto de la tecnología en la industria.

Se le puede encontrar en Olin@ProcessERP.com

Predrag Jakovljevic es director de investigación de TechnologyEvaluation.com (TEC) y se enfoca en el mercado de aplicaciones empresariales. Cuenta con cerca de 20 años de experiencia en la industria de la fabricación, incluyendo varios años como usuario privilegiado de TI/ERP. También ha trabajado como consultor/implementador y analista del mercado. Tiene un título en ingeniería mecánica de la Universidad de Belgrado, en Yugoslavia y la certificación en gestión de la producción y el inventario (CIRM) de APICS.

 
comments powered by Disqus