Inicio
 > Informes e investigaciones > Blog de TEC > El papel de la analítica en-memoria para el anál...

El papel de la analítica en-memoria para el análisis de grandes datos

Escrito por: Jorge Garcia
Publicado: mayo 16 2012

En un artículo previo, hablaba sobre los grandes datos y la necesidad de una solución para manejarlos, administrarlos y generar valiosos conocimientos de grandes volúmenes de datos en diferentes formatos y de fuentes dispares. Aquí abordaremos el papel de las tecnologías en-memoria para el análisis de grandes datos y el potencial de esta tecnología para cambiar el panorama de la inteligencia empresarial (BI) y la tecnología de la industria. Pero primero debemos comprender las bases.

Una infraestructura básica (framework)
¿Qué significa tener una tecnología en-memoria? La tecnología en-memoria significa que todos los datos en la computadora están almacenados dentro de su memoria RAM (random access memory), en lugar del disco duro. El almacenamiento de datos en-memoria mejora su administración de la siguiente forma:


• Por medio del uso de una memoria de semiconductor (semiconductor storage media), en lugar de utilizar la memoria de disco física (physical disk storing), los datos se lean y procesan más rápido. 
• Al minimizar o evitar la escritura o lectura mecánica, el tiempo de latencia para la realización de varias operaciones se ve reducido.
• Por medio de diferentes e innovadores esquemas para almacenar datos (como por columnas, indexada, etc.), se mejora el procesamiento de grandes volúmenes de datos.

Ciertos avances en la tecnología de hardware han sido implementados para apoyar el desarrollo y uso de  las tecnologías en-memoria. Por ejemplo, el uso de los procesadores de 64-bit permite que los servidores procesen mayores cantidades de memoria, además de permitir que la arquitectura del servidor trabaje con mayores cantidades de espacio en RAM. Adicionalmente, la escalabilidad y paralelización de los procesos permiten que las tecnologías en-memoria aprovechen el rendimiento mejorado de los RAM disponibles más grandes. Si desea leer un análisis exhaustivo de algunos de los principios y conceptos más importantes de las tecnologías en-memoria, le recomiendo leer el artículo cuyo título es Análisis en-memoria: un estudio multi-dimensional de mi colega Anna Mallikarjunan.

Los productos con tecnologías en-memoria no son nuevos en la industria del software. Un claro ejemplo, es el proveedor QlikTech quien comenzó a trabajar con sus productos basados en-memoria en los 90, además otros proveedores de aplicaciones de BI como IBM Cognos las han estado utilizando por más de una década. Muchos de los proveedores de software tienen tecnologías en-memoria de una u otra forma, especialmente aquellos sistemas para el análisis de datos como los proveedores de sistemas BI con aplicaciones OLAP (online analytical processing). Al almacenar los datos en RAM, las aplicaciones OLAP pueden acelerar los procesos de las consultas y análisis de datos, además de facilitar el modelado de datos al aplicar formas innovadoras para su organización y almacenamiento. A continuación presentamos una tabla con algunos productos de software que utilizan tecnologías en-memoria para los servicios OLAP.

 

Producto Proveedor
PowerPivot Microsoft
Cognos TM1 IBM
Jedox OLAP Accelerator (GPU) Jedox
WebFOCUS Visual Discovery Information Builders
BIRT Data Objects and BIRT Data Analyzer Actuate
Tableau Tableau Software

 

Muchos productos ya incluyen las tecnologías en-memoria para realizar un rápido análisis y hallazgo de datos. Algunos proveedores ofrecen además la implementación de una base de datos en-memoria con la implementación de sus productos, entre los que se encuentran QlikView, PowerPivot, Kognitio, Spotfire y Tableau con su nuevo motor en-memoria. Este motor permite la ubicación de los datos en-memoria, como en el uso de un esquema por columnas para asuntos de BI, mejorando así el rendimiento para el procesamiento de datos.
 
Aunque la analítica y BI aprovechan los sistemas de bases de datos en-memoria (IMDS, por sus siglas en inglés), estos sistemas IMDS no fueron creados para dicho propósito. Los sistemas de bases de datos como eXtremeDB, VoltDB, solidDB de IBM, TimesTen de Oracle y HANA de SAP son bases de datos en-memoria para múltiples usos y creadas específicamente para permitir una respuesta más rápida de las aplicaciones en funcionamiento. De allí que, estos sistemas tienen la posibilidad de cambiar la forma en la cual las organizaciones procesan y diferencian entre los datos transaccionales (operativos) y los datos no transaccionales (analíticos).

Desde la perspectiva del diseño, IMDS tiene características importantes que aseguran el más alto rendimiento posible en ambientes críticos:

• Reduce la sobre carga en la transferencia de datos. Mientras los sistemas tradicionales para la gestión de las bases de datos (DBMS, por sus siglas en inglés) deben leer los datos desde los archivos el disco de almacenamiento (memoria), los sistemas IMDS necesitan poca o ninguna transferencia de datos, en la medida en que ellos le apuntan directamente a los datos en sí.
• Reduce y/o elimina el almacenamiento en la memoria cache. Las bases de datos en-memoria eliminan gran parte de la memoria cache al asegurar que casi todos o todos los datos residen dentro de la memoria RAM.
• Optimizar el uso de la memoria (compresión). Esta característica permite que IMDS optimice el almacenamiento y procesamiento de datos RAM.


Ahora que las bases de datos en-memoria han demostrado sus ventajas en cuanto al rendimiento en el procesamiento de datos, miremos cómo pueden ayudar a enfrentar los retos relacionados con los grandes datos.
 
El encuentro entre en-memoria y los grandes datos
Entonces, ¿cómo pueden las tecnologías en-memoria entrar en el espectro de los grandes datos? En la medida en que los datos incrementan en volumen, variedad y velocidad de procesamiento, las organizaciones necesitarán recopilar y analizar estos datos como parte de su proceso de toma de decisiones. Esta información deberá ser analizada a tiempo para lograr una ventaja competitiva. Para algunas organizaciones, el tiempo de latencia –dígase el tiempo que toma la recopilación, análisis y disponibilidad de la información para la toma de decisiones- debe ser mínimo. Una de la formas de resolver el problema de procesar vastas cantidades de datos estructurados y no-estructurados es por medio de la implementación de una sistema para grandes datos, como una solución para datos basada en Hadoop, para la gestión de los escenarios de los grandes datos, además de la tecnología para las bases de datos en-memoria, la cual deberá permitir el análisis avanzado de datos sumamente grandes y complejos a una alta velocidad (en tiempo real). Entonces, un análisis que de otra forma puede tomar horas o días es realizable con un IMDS en horas, minutos e incluso, segundos.

El uso de las tecnologías en-memoria facilitan además el análisis de datos informal y ad-hoc, lo cual puede llevar al descubrimiento de datos y mejoramiento de los procesos. De allí que, las bases de datos sumamente rápidas y/o en-memoria forman un complemento lógico en la implementación de una estrategia para los grandes datos. Al igual que las soluciones para los grandes datos, las bases de datos en-memoria le dotan con:

• Almacenamiento. Permite manejar grandes cantidades de datos en-memoria.
• Simplicidad. Por medio de la simplificación en el manejo de los datos estructurados y no estructurados.
• Velocidad del proceso. Por medio de la habilidad de procesar a alta velocidad.

Desde el punto de vista técnico, las organizaciones deben tener en cuenta las características esenciales y los cuestionamientos importantes en cuanto a la tecnología de las bases de datos en-memoria y cosechar sus beneficios:


Caching y memory swapping. ¿Cómo maneja la aplicación los grupos de datos más grandes que el espacio disponible en el disco?
Compresión. ¿Cuál es el margen de compresión disponible y cómo funciona la aplicación al procesar datos en un formato      comprimido?
Cargas. (inicial y creciente). ¿Cómo funciona la aplicación con la carga inicial de datos y/o una carga creciente?
Integración. ¿Qué tan bien se integrará la bases de datos en-memoria con los sistemas de terceros, tanto a nivel operacional como no-operacional?
 
Una tecnología, múltiples proveedores
Los proveedores están ofreciendo en la actualidad bases de datos en-memoria en forma de dispositivos y/o aplicaciones basadas en la nube. Los dispositivos tienen la ventaja de formar un producto que combina el software (como la aplicación en-memoria y la base de datos) dentro del hardware (como el servidor), pero las soluciones en-memoria basadas en la nube están relacionadas con bajos costos totales de propiedad y pocos requisitos técnicos para los usuarios.

La tabla que presentamos a continuación lista algunos de los proveedores en el área de las bases de datos en-memoria, quienes le dotan la habilidad de analizar grandes datos.

Producto Proveedor Descripción
HANA SAP HANA (High Performance Analytics Platform) es la tecnología de SAP para las bases de datos en-memoria. Es distribuida como un dispositivo con hardware certificado por SAP. Permite el almacenamiento en columnas o filas con características de alta compresión y particionamiento.
Exalytics In-memory Machine Oracle Dispositivo en-memoria creado por Oracle. Combina una serie de tecnologías como BI foundation de Oracle y la bases de datos en-memoria Oracle TimesTen que permite el análisis de grandes datos en-memoria.
VoltDB VoltDB VoltDB es un sistema de bases de datos relacional y rápido basado en-memoria. Ha sido diseñada específicamente para funcionar por medio de servidores conectados vía redes de alta velocidad. Aunque no fue diseñada específicamente para el análisis de grandes datos, sus características de alto rendimiento permiten realizar este tipo de tareas.

The Kognitio Analytical Platform—WX2
Kognitio La plataforma analítica WX2 es el producto de Kognitio para el análisis en-memoria de grandes datos. Se ofrece en sitio como un dispositivo para analítica y por medio de la nube. Su escalabilidad y alto rendimiento posicionan este dispositivo en el área del análisis en-memoria.
QlikView QlikTech QlikView es una plataforma impulsada por la tecnología de búsqueda asociativa en-memoria (basada en columnas) y una serie de interfaces para la programación de aplicaciones (API, por sus siglas en inglés) para crear una conexión con el API desde el proveedor de Hadoop-based data.  También es posible utilizar QlikView en un ambiente distribuido y clustered.

Por último
Por supuesto, no todas las soluciones para grandes datos deben estar basadas en tecnologías en-memoria. Algunos proveedores de software ya incluyen el análisis de grandes datos por medio de soluciones hibridas basadas en la combinación de tecnología en-memoria y el uso de disco duro, así como otras técnicas alternativas para mejorar el rendimiento en el análisis de grandes datos. Sin embargo, es de esperar que más proveedores de software produzcan soluciones específicamente basadas en-memoria para el análisis de grandes datos en tiempo real. Teradata, con la nueva expansión de su solución Integrated Analytics, el nuevo SQLServer 2012 de Microsoft con su capacidad mejorada de análisis en-memoria y de grandes datos, y el sistema AG con su nueva estrategia para la administración de grandes datos en-memoria, son solo algunos ejemplos del creciente interés de los proveedores quienes proveen soluciones en-memoria para resolver el problema del análisis de grandes datos, en tiempo real. Por lo tanto, pienso que será cuestión de tiempo para que el uso de las tecnologías de bases de datos en-memoria para el análisis de grandes datos, se conviertan en la tendencia y lograr los posibles beneficios de tener una solución en-memoria, como parte de toda la estrategia para los grandes datos. 

Traducido del inglés por Claudia Gómez

 
comments powered by Disqus

Búsquedas recientes:
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Others