关于大数据

  • 作者:
  • 发布于: 三月 30 2012



对于大数据到底有多大始终无法达成共识,一些企业按太字节(TB)或是拍字节(PB)的顺序来处理大容量的数据,许多人认为管理巨大的数据是一种挑战。公平地说,当传统的关系型数据库和系统不再够用时,意味着将处理大数据。

数据库之间的数据存储和移动将对企业造成巨大的影响。大数据管理并非只是与大容量的数据群打交道,而是涉及了对于复杂数据群的分析并能充分利用这些数据的价值,比如竞争优势、性能改善,当然还有利润。大数据需要特殊的战略和工具,而且应该从更广泛的视野去考虑,并不单纯是从大小的角度。

并不只是关于大小

大数据拥有三大主要特点:


• 大量化。大量化是第一个和最知名的特点。它涉及了被处理的数据量。许多企业内部产生大量数据,或是从外部收集大量其它数据。
• 多样化。目前,企业收集数据的方式更加多样化:有更多的内部系统(主要是结构性的)收集的数据,有半结构或非结构化的社交媒体收集的数据,例如微博和博客,同样还有来自传感器的数据,甚至是纯文本文件的数据。
• 快速化。传统解决方案的类型(比如数据仓储),潜在期限被大大减少。信息常常是敏感的,需要根据特定的时间框架来移动和使用,以便获取最大价值。实时或是接近实时的答案是现代企业的普遍需求。

一旦发现了大数据问题,需要从多方面考虑。数据的复杂性将决定可靠地利用大数据的信息量的难度。反之,这将引导企业获取处理数据的技术,将软件和硬件技术相结合,把处理大数据成为可能。

一些企业已经认识到关系数据库管理系统(RDBMSs)已经无法满足管理大型和多种数据的需求,传统的商业智能应用程序已经不再强大到可以在适当的时间以适当的方式挖掘更深入的信息。企业需要部署特定的技术来处理大数据。

大数据解决方案可以提高数据量在短时间内有能力处理各类不同来源的数据,以及执行操作。


天花乱坠的宣传


引发新的应用程序和技术的的开发是由于普通的商业智能部署已经无法满足管理结构化和非结构化的内容。数据钻取流程在信息量较大的情况下就变得异常困难。
这些新工具正在改变传统的BI数据周期。数据在几秒钟就能被收集和被分析,需要传统的BI部署加速决策流程来获得可靠的结果。部署大数据解决方案的好处:


• 通过减少阅读和分析工作量来加快决策流程,并且比传统解决方案更快得到结果。
• 收集来自不同地方的各种信息,不论是结构化的、半结构化的还是非结构化的,并且能进行高效管理。
• 发现数据任务性能,允许设计测试方案,创建更好地分析解决方案和提高已经存在的解决方案性能,同样还有性能分析功能。


随着数据容量的增加,企业数据存储成本会变得异常昂贵。在处理大容量数据时,测量数据存储将成为负担。不过,一些大数据供应商开发的解决方案不但经济实惠,而且还能根据要求进行修改和升级。


开源解决方案在稳定市场价格方面起到了重要作用,比如NoSQL。


供应商
市场中,供应商提供的解决方案可以满足处理数据的不同方式。可以区分在大数据领域的两大主要分类。

大数据档案和数据库管理系统

产品名称

供应商

相关产品

Aster Database

Aster Data
(
已被Teradata收购)

Ayrris

Appistry

Cassandra

Apache Software Foundation
(
开源)

DataStax

Hadoop

Apache Software Foundation
(
开源)

Cloudera, Hortonworks,
MapR, Microsoft Big Data,
IBM InfoSphere BigInsights

Hypertable

Hypertable.org
(
开源)

MongoDB

MongoDB.org
(
开源)

10gen

Riak

Basho

大数据分析系统是用来分析大型数据群和数据信息的系统。

产品名称

供应商名称

1010Data DBMS

1010Data

Greenplum Data Computing Appliance (DCA)

EMC

IBM Netezza Analytics

Netezza IBM旗下的公司

Infobright Enterprise Edition

Infobright

Oracle Big Data Appliance

Oracle

ParAccel Analytic Platform

ParAccel

SQL Server R2 Parallel Data Warehouse

Microsoft

Sybase IQ

SybaseSAP旗下的公司

Vectorwise

Actian (formerly Ingres)

Vertica Advanced In-Database Analytics

Vertica惠普旗下的公司

WX2

Kognitio

大数据已经快速被传统的商业智能供应商注意。商业智能供应商提供到大数据应用程序系统的连接器,以便分析这些数据。向用户交付此类解决方案的供应商有Pentaho, Tableau Software, Endeca (已经被Oracle收购), JaspersoftMicroStrategy

准备开始


以下是在选择大数据提供商的时候应考虑的因素:


1. 识别埋藏在数据中的挑战和机会,找出并关注在管理和分析大量数据时的主要问题。
2. 明确理解需求。开始探索有关供应商名单之前,请评估需要的技术和信息类型。一旦开始了选择,请确保理解存在的数据问题以及解决这些问题需要的资源。
3. 无需急于计划。确保大数据活动与企业目标一致,利益和风险一目了然,使通往成功之路畅通无阻。

大数据解决方案涵盖了完整的数据生命周期,从数据收集到它们的可视化呈现。企业内部的数据爆炸是大数据战略的推动力。那些成功部署这类解决方案的企业便可以识别管理的数据类型,正在进行的数据处理和获取信息的性质。沿着这样的途径,企业能够选择和部署必要的技术以便充分利用这些数据。

 
comments powered by Disqus