Los grandes datos




No existe consenso real sobre cuán grandes son los “grandes datos”, algunas empresas manejan volúmenes de datos que alcanzan los Terabytes o incluso los Petabytes; sin embargo, no muchos estarán en desacuerdo con que la administración de estas grandes cantidades de datos representa un reto. Por lo tanto, es justo decir que nos enfrentamos a un problema de grandes datos cuando las bases de datos relacionales tradicionales y sus sistemas administrativos no son suficientes.

Cosas tan simples como el almacenamiento y movimiento de grandes datos entre repositorios tiene un gran impacto en la organización. La administración de grandes datos es más que trabajar con un enorme grupo de datos; involucra la complejidad de su análisis y obtener de ellos el máximo valor posible, dígase una ventaja competitiva, mejoras en el rendimiento y por supuesto, la rentabilidad. Los grandes datos requieren de estrategias y herramientas especiales y deben considerarse desde una perspectiva más amplia que simplemente el tamaño.


Más que el tamaño

El manejo de los grandes datos tiene tres características principales:
• Volumen. El volumen es la principal y más notoria característica. Se refiere a la cantidad de datos a manejar. Muchas organizaciones producen internamente grandes cantidades de datos, o los recopilan del exterior.
• Variedad. La variedad del tipo y forma de los datos que recopilan las empresas ha incrementado en múltiples formas: existen más sistemas internos de los cuales se extraen datos (principalmente estructurados), además del incremento de fuentes externas e internas de datos semiestructurados o sin estructura, provenientes de fuentes de medios sociales como los Blogs y Tweeter, y los datos provenientes de sensores e incluso documentos de texto plano (plain-text).
• Velocidad. Al igual que en los tipos tradicionales de soluciones, como por ejemplo el almacenamiento de datos, los periodos de latencia están siendo reducidos a diario. Con frecuencia la información es delicada y debe ser movida y utilizada según ciertos límites de tiempo para obtener de ella el mayor valor posible. Las respuestas en tiempo real o cercano a él son necesidades normales dentro de las organizaciones modernas.

Una vez que se ha determinado que existe un problema con grandes datos, existen dos aspectos importantes a tener en cuenta:

La complejidad de los datos determinará la dificultad para explorar con confianza la información que reside en los grades datos. Esto orientará a la empresa en la adquisición la tecnología que pueda trabajar con los datos; es decir, la combinación de hardware y software que hacen posible la manipulación de grandes datos.

Algunas organizaciones se han percatado de que los sistemas para la gestión de bases de datos relacionales (RDBMSs) no son suficientes para la administración de datos grandes y diversos, además las aplicaciones tradicionales de inteligencia empresarial (BI, por sus siglas en inglés) no son lo suficientemente poderosas para hallar conocimientos de forma apropiada y puntual. La necesidad de implementar tecnologías específicas para poder trabajar los grandes datos.

Una solución para grandes datos provee los medios técnicos para realizar operaciones con un alto volumen de datos y en un corto periodo de tiempo, además de la habilidad de procesar diferentes tipos de datos de fuentes dispares.

¿Por qué el alboroto?

Uno de los motivadores del diseño de nuevas aplicaciones y tecnologías es la incapacidad que tienen las implementaciones normales de BI para gestionar contenidos con y sin estructura. El proceso de extracción de datos puede ser especialmente difícil con grandes cantidades de información.
Estas nuevas herramientas están cambiando el ciclo de datos tradicional de BI. Los datos pueden ser capturados directamente de la fuente y analizados en cuestión de segundos, produciendo resultados confiables en una fracción del tiempo que toman loas implementaciones de BI tradicionales, reduciendo así la latencia y acelerando el proceso de toma de decisiones. Algunas de las ventajas de implementar una solución para grandes datos son:
• La reducción del proceso de toma de decisiones por medio de la lectura, análisis y presentación de resultados más rápida que en las soluciones tradicionales
• La recolección de información, bien sea estructurada, semiestructurada o sin estructurar de fuentes dispares, además de ser capaz de administrarla.
• La realización de tareas para el descubrimiento de información, que le permitan construir escenarios de pruebas, lo cual es muy importante en la creación de mejores soluciones analíticas, incluyendo las existentes, así como la realización inmediata de análisis

Existe un punto de vista económico sobre el alboroto de los grandes datos. Un almacén de datos corporativos puede hacerse rápidamente más costoso dados los incrementos en el volumen. Escalar un almacén de datos puede ser un gran trabajo cuando se están manejando tales volúmenes. Entre tanto, algunos proveedores de sistemas para grades datos crean soluciones que no solo son más baratas desde el principio, pero que pueden ser escalables, adaptables y modificables según la necesidad.

Las soluciones de código abierto, como NoSQL, han jugado también un papel importante en el movimiento de grandes datos, forzando a la baja los precios del mercado.

Los participantes


Así como con cualquier otro segmento en la industria del software, el espacio de los grandes datos está lleno de proveedores que satisfacen diferentes aspectos de la administración de los mismos. Podemos diferenciar dos categorías principales en el espacio de los grandes datos.

Los sistemas para la administración de grandes datos los cuales permiten el dominio sobre los grandes volúmenes de datos.

Sistemas para la administración de bases de datos y archivos de grandes datos

Producto Proveedor Proveedor comercial de productos relacionados
Aster Database Aster Data
(adquirido por Teradata)
Ayrris Appistry
Cassandra Apache Software Foundation
(open source)
DataStax
Hadoop Apache Software Foundation
(open source)
Cloudera, Hortonworks,
MapR, Microsoft Big Data,
IBM InfoSphere BigInsights
Hypertable Hypertable.org (open source)
MongoDB
MongoDB.org
(open source)
10gen
Riak Basho

Las aplicaciones para el análisis de grandes datos son productos que como su nombre lo indica, analizan grandes volúmenes y sus grupos de información.

Aplicaciones para el análisis de grandes datos

Producto Proveedor
1010Data DBMS 1010Data
Greenplum Data Computing Appliance (DCA) EMC
IBM Netezza Analytics Netezza, una compañía de IBM
Infobright Enterprise Edition
Infobright
Oracle Big Data Appliance Oracle
ParAccel Analytic Platform ParAccel

SQL Server R2 Parallel Data Warehouse

Microsoft
Sybase IQ Sybase, una compañía de SAP
Vectorwise Actian (anteriormente Ingres)

Vertica Advanced In-Database Analytics

Vertica, una compañía de HP
WX2 Kognitio

 

Además, los proveedores tradicionales de BI están trabajando para incluir la capacidad de trabajar con grandes datos. Algunos de ellos ofrecen conexiones hacia las aplicaciones para grandes datos y poder analizarlos así. Unos de ellos son Pentaho, Tableau Software, Endeca (adquirida por Oracle) Jaspersoft y MicroStrategy.

Para empezar


He aquí un resumen de algunos elementos a tomar en cuenta al seleccionar un proveedor de soluciones para grandes datos:


1. Calcule los retos y oportunidades enterrados en sus datos Determine los problemas más importantes en términos de la administración y análisis de cantidades vastas de datos y enfóquese en ellos.

2. Identifique sus necesidades claramente. Antes de explorar la lista de proveedores, evalúe el tipo de tecnología e información que usted necesita. Una vez que empiece a explorar sus opciones, asegúrese de comprender su problema de datos y lo que necesita para resolverlo.

3. No se apresure; planee. Asegúrese de alinear su plan de grandes datos con sus objetivos corporativos, y de que los beneficios y riesgos estén claros. Abra el camino hacia el éxito.

Una solución para grandes datos incluye el ciclo de vida completo de los datos, desde su recolección hasta su representación visual. La explosión de los datos dentro de una organización puede ser el ímpetu para una estrategia de grandes datos. Las organizaciones que tienen éxito en la implementación de este tipo de soluciones son aquellas que pueden identificar el tipo de datos a administrar, el proceso por el cual deben pasar y la naturaleza de la información obtenida. Siguiendo este sendero una organización puede seleccionar e implementar la tecnología necesaria para lograr el mejor uso de sus datos.

 
comments powered by Disqus