Inicio
 > Informes e investigaciones > Blog de TEC > Los elementos básicos del almacenamiento de dato...

Los elementos básicos del almacenamiento de datos en tiempo real

Escrito por: Jorge Garcia
Publicado: enero 6 2010

Los elementos básicos del almacenamiento de datos en tiempo real
Jorge Garcia

Entendiendo los sistemas que trabajan en tiempo real

Hoy, la computación en tiempo real esta en todas partes, desde los sistemas de control de la información del cliente (CICS, del inglés customer information control systems) hasta los sistemas de almacenamiento de información en tiempo real (Real Time Data Warehouse). Los sistemas en tiempo real tienen la capacidad de responder a las acciones del usuario en un corto periodo de tiempo. Este comportamiento permite que los sistemas de tiempo real puedan tener características especiales como la interacción instantánea. Los usuarios pueden pedir información al sistema para recibir una respuesta. Además, los usuarios tienen la posibilidad de permanecer conectados (en línea) para interactuar con el sistema en cualquier momento –lo cual se llama sistemas de procesamiento transaccional en línea (OLTP, online transaction processing).

En general, los sistemas de tiempo real generan gran cantidad de datos actualizados y operan de manera transaccional, lo cual significa que el usuario puede registrar las transacciones empresariales. A pesar de que los sistemas tradicionales de tiempo real pueden almacenar información histórica, no están diseñados para aprovechar esta información para propósitos analíticos. En los sistemas en tiempo real, la importancia de los datos reside principalmente en la posibilidad de responder a los más recientes en el sistema, además de los datos históricos para propósitos de monitoreo. Los sistemas comunes de tiempo real están diseñados para propósitos de mantenimiento de libros contables, como información de facturas, reservación de vuelos, etc. Los datos transaccionales almacenados en un sistema de tiempo real serán actualizados dependiendo de los propósitos operacionales, lo cual explica por que algunos sistemas tradicionales de tiempo real son conocidos también como "sistemas operacionales."

Almacén de datos (Data Warehouse)

Los sistemas operacionales son capaces de generar una gran cantidad de datos para apoyar las operaciones transaccionales de una compañía. Los datos generados por estos sistemas son actuales y de gran valor; así como diversos y heterogéneos, además pueden venir de una gran variedad de fuentes. Es normal que las empresas tengan varios sistemas de apoyo para sus operaciones. Para resolver el problema de recolección, integración, limpieza y análisis de información heterogénea, se han desarrollado nuevos sistemas de software. El almacenamiento de datos es su más importante característica.

Los grupos de datos por temas, que están integrados y que cambian en el tiempo, pero que su registro histórico es estático es lo que llamamos almacén de datos. Estos datos son utilizados para apoyar las decisiones del equipo administrativo de una organización. Un almacén de datos se utiliza para integrar los datos históricos de una organización y tiene la habilidad de almacenar las descripciones de dichas transacciones. Toda la información generada en las fuentes de datos operacionales es extraída, limpiada, transformada y cargada al sistema de almacenamiento de datos. Una vez en el almacén, los datos pueden ser sometidos a una gran variedad de análisis y procesos de exploración. ٔ

En un diseño tradicional de almacén de datos, la información generada en una empresa se concentra en un lugar único y no será borrada. Ello asegura la integración y homologación de los datos para crear una sola versión de la realidad para toda la organización, cada trimestre, mes, semana, o incluso cada día. Existen múltiples herramientas que permiten el análisis de la información desde múltiples perspectivas: herramientas de reportes y análisis, herramientas para el análisis de procesamiento analítico (OLAP), minería de datos, pronósticos, etc.

Los administradores y quienes toman las decisiones se dieron cuenta de que el almacén de datos y su tecnología podían generar una panorámica completa del estado de una organización. Pero ya que los sistemas operacionales involucrados, las fusiones empresariales y la globalización va en aumento, el número de transacciones empresariales ha incrementado sustancialmente. Pronto se percataron de que tener disponibilidad sobre la información histórica no seria suficiente para a poyar a las empresas en la toma de decisiones. Los administradores necesitaban actualizar la información a gran velocidad, forzando a los almacenes de datos a aumentar la frecuencia de las actualizaciones.

Tiempo real y el almacén de datos

A primera vista, los conceptos de tiempo real y almacén de datos parecen estar muy distantes el uno del otro, pero si miramos con más detenimiento, veremos que el paradigma de almacén de datos en tiempo real es más lógico de lo que aparenta. Como mencionaba con anterioridad, el volumen de los datos generados por los sistemas operacionales ha crecido intensivamente. La velocidad de los datos ha forzado a los almacenes de datos a cambiar radicalmente la forma en la cual se almacenan y gestionan dichos datos.

Como un proceso natural y como consecuencia del incremento en la velocidad de la generación de datos, el diseño de los almacenes de datos se ha visto en la necesidad de aumentar la frecuencia de los ciclos de actualización, además de enfrentar los nuevos retos en el diseño de los almacenes. Uno de los pasos para resolver este problema fue la creación del almacén de datos en tiempo casi real.

El almacenamiento de datos en tiempo casi real

Los procesos de extracción, transformación y carga (ETL, por sus siglas en inglés) representan uno de los retos más grandes en el diseño de almacenes de datos en tiempo real. Todos los procesos de ETL para los almacenes de datos, fueron originalmente diseñados para ser ejecutados por lotes durante periodos programados de receso. Se extraían todos los datos operacionales de múltiples fuentes como los sistemas ERP, se limpiaban en el repositorio y se cargaban al almacén de datos durante largos periodos de tiempo, generalmente en la noche. Estos procesos pueden tomar minutos u horas, dependiendo del volumen de los datos que se están cargando al almacén.

Bajo la presión de cargar los datos más recientes al almacén, se forzó el aumento de la frecuencia de los procesos ETL con nuevos diseños. Esta perspectiva se derivó de una solución muy simple: si la empresa no requiere realmente de tecnología en tiempo real, puede ser suficiente implementar un almacén de datos cercano al tiempo real. Ello significa que la mayor parte consiste solo en realizar más procesos de ETL. La perspectiva de cercanía al tiempo real tiene varios retos como el aumento de la frecuencia de los recesos para poder procesar la información, la presión de disminuir la duración de los recesos y evitar la inconsistencia de los resultados. Si no existe la necesidad de una solución de almacenamiento en tiempo real, una buena opción puede ser la implementación de un almacén de datos cercano al tiempo real.

El almacenamiento de datos en tiempo real

Los almacenes de datos en tiempo real permiten guardar la información en el momento en el cual esta es generada y es capturada, limpiada y almacenada inmediatamente dentro de la estructura del almacén. Los ciclos tradicionales de actualización no son validos aquí. El almacén de datos es capaz de leer la información en movimiento a través de los sistemas operacionales en el momento de su generación. A pesar de las dificultades de implementar un verdadero sistema de almacenamiento en tiempo real, existen algunas ventajas.

  • Disminuye el tiempo de entrega de la información.
  • Mejora la integración a través de toda la organización.
  • Facilita el análisis de las tendencias futuras.

Principios básicos a considerar

Con la creciente popularidad y el aumento de implementaciones de almacenes en tiempo real, es importante mantener en mente los principios básicos de este tipo de implementaciones.

Información a tiempo o en el momento indicado

Los datos deben fluir hacia el almacén de datos de tiempo real a la velocidad necesaria para ser considerados valiosos. En los almacenes de datos en tiempo real, el mecanismo de lotes ETL en la transferencia de tablas o archivos es remplazado con un diseño en el cual los datos fluyen hacia el almacén desde diversas fuentes de forma sincronizada. Los datos serán considerados valiosos si fluyen a la velocidad apropiada aunque no necesariamente a la velocidad del tiempo real. El ciclo de estos datos dependerá del propósito analítico para el cual se utilizan estos datos. Los datos en tiempo real son una parte esencial del proceso analítico, pero los datos históricos siguen siendo una parte esencial del paradigma de diseño. Mientras el análisis táctico necesita de datos inmediatos o recientes, otros tipos de decisiones estratégicas necesitan de grandes volúmenes de información. Para todos los análisis empresariales se requiere una combinación de datos históricos y en datos tiempo real o actualizados.

El propósito analítico

Los almacenes de datos en tiempo real no pretenden reemplazar los sistemas operacionales tradicionales. Una de las funciones del almacén de datos en tiempo real es la de apoyar el proceso analítico y no el de realizar funciones operacionales. Aún cuando los almacenes de datos tienen la habilidad de almacenar datos en tiempo real, su diseño tiene el objetivo de realizar cargas intensivas de datos y no registros basados en transacciones. Los almacenes de datos en tiempo real están basados en los flujos de datos empresariales, en lugar de las transacciones empresariales y deben mantener su principal propósito analítico.

El enfoque empresarial

Uno de los diferenciadores clave de otros sistemas de tiempo real como los sistemas ERP, CRM, etc. es la integración. Un almacén de datos en tiempo real integra los datos que fluyen desde diferentes fuentes hacia un solo sitio. Considere el almacén de datos en tiempo real como una bodega de datos empresariales, donde este repositorio será accesible para todas las unidades empresariales a través de toda la organización.

Finalmente, algunos proveedores en el área del almacenamiento de datos en tiempo real

El almacenamiento de datos es un asunto serio. Existen varios proveedores en el área de almacenes de datos, algunos de los cuales son grandes y otros han madurado lo suficiente para ofrecer soluciones muy completas. Otros proveedores son innovadores y ofrecen soluciones de vanguardia. He aquí algunos proveedores a considerar cuando se planea una implementación de una solución de almacenamiento de datos en tiempo real (listados en orden alfabético).

Greenplum
Greenplum Database es un software de almacenamiento de datos creado para el procesamiento analítico a gran escala. Basada en la arquitectura MPP (Massive parallel processing) y con múltiples niveles de tolerancia para las fallas. Esta base de datos contiene las interfaces estándares de la industria (structured query language [SQL], open database connectivity [ODBC], java database connection [JDBC], e interoperabilidad con las herramientas más comunes de inteligencia empresarial [BI] y ETL).

IBM
IBM cuenta con InfoSphere Warehouse para entregar una solución de almacenamiento de datos con diferentes ediciones, como a nivel empresarial o departamental y una solución completa de almacenamiento (InfoSphere Balanced Warehouse). Recientemente, IBM anunció InfoSphere System Z como parte de una solución completa de almacenamiento de datos de IBM. El sistema permite que las aplicaciones pueblen los almacenes de datos bajo los sistemas operacionales DB2 para z/OS.

Microsoft
SQL Server 2008 provee una solución escalable de almacenamiento de datos para BI. Las características de este producto incluyen la compresión de datos, la partición de tablas, paralelismo y cambio en la captura de datos. Estas herramientas de servicios de integración escalable permiten operaciones rápidas de ETL y la conectividad hacia servidores de fuentes de datos no SQL.

Netezza
Netezza Data Warehouse Appliances es una combinación de herramientas de software y hardware diseñadas para el procesamiento analítico en grandes cantidades de datos. La arquitectura de Netezza esta basada en MPP (massively parallel processing) y utiliza el proceso de "streaming" para contribuir al análisis avanzado o complejo.

Oracle
Oracle ofrece un grupo de productos para el despliegue de soluciones de almacenamiento de datos, como Exadata Storage Server (basado en el servidor de HP ProLiant DL180 G5), HP Oracle Database Machine diseñada para almacenes de datos de multiterabyte y las herramientas de integración de Oracle Warehouse Builder que permiten la carga y captura de datos para bases de datos de baja frecuencia. Además, ofrecen otros productos como Oracle Partitioning, el cual puede disminuir el tiempo de búsquedas y aumentar la disponibilidad de los datos.

Teradata
Entre sus productos se encuentra Terada Database 12 que es un producto para almacén de datos empresariales (EDW, enterprise data warehouse) con la habilidad de operar en paralelo, la habilidad de operar misiones criticas y de fácil integración. Incluye además capacidades de multiprocesamiento simétrico (SMP, symmetric multiprocessing), así como sus propias herramientas y servicios como Tpump, FastLoad, MultiLoad, donde los datos son cargados continuamente. Además, los servicios Teradata Replication son utilizados para la captura y entrega de información que ha cambiado.

Vertica
La solución Vertica Analytic Database es una base de datos basada en columnas y en la arquitectura MPP que maneja almacenes de datos de nueva generación. Ha sido diseñado para manejar el análisis de datos a gran escala, así como múltiples usuarios simultáneos e incluye una compresión de datos muy agresiva.

La implementación del almacén de datos ha cambiado radicalmente. Esta es aún un repositorio de datos empresariales que permite el análisis de los mismos. Pero hoy en día, los almacenes de datos tienen la habilidad de incorporar no solo los datos históricos, sino además los datos de tiempo real. Esta nueva característica expande las funcionalidades del almacén de datos y permite su almacenamiento a mayor velocidad. Adicionalmente permite las decisiones tácticas y analíticas en el momento indicado para una organización. El almacenamiento de datos no solo esta vivo y sano, pero esta evolucionando y madurando. Ello esta permitiendo a las compañías evolucionar y expandir por medio del uso de nueva tecnología para analizar la información pasada y presente, que apoyan mejores decisiones futuras.

 
comments powered by Disqus

Búsquedas recientes:
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Others