主页
 > 研究与报告 > TEC博客 > 连续数据质量管理: 零延迟商业分析的基石

连续数据质量管理: 零延迟商业分析的基石

作者: Metagenix
发布于: 七月 15 2013

数据质量差的费用

不管你有多好企业实现CRM,ERP,SCM,商业智能,数据仓库项目,数据质量差可以摧毁它的效用和成本真元。根据最近的行业研究:

  • 差的数据质量     营商成本611十亿美元,每年仅在美国(TDWI)。      -      -     
  • 75%的企业     有经验丰富的重大问题,是由于错误的数据(PWC)。 -      -     
  • 只有33%     企业认为公司的数据的质量充满信心。
现在想象

的这个相同的数据质量较差加油业务决策的下游的影响。糟糕的决定不仅会进行,但员工和管理人员时,停止信任他们的商业智能应用程序,可危及整个投资在这些昂贵的系统。这很简单:忽略数据质量的企业,这样做在自己的危险和牺牲。

  第一个由两部分组成的文章,定义问题,它对企业的重要性。   

部分   二根据笔者的经验提出了一个解决方案。

没有时间去思考

的零延迟决策,基于业务活动real-time/near-time监测,在商界的一个明显趋势。要启用此即时访问/即时反应的发生,与历史数据的实时商业智能的混合,创造了巨大的依赖于持续的数据质量。

传统上,

的大规模应用,如ERP,客户关系管理(CRM),商业智能,流程管理,中间件,数据集成与数据质量问题遇到困难。 ERP系统通常作为数据采集点的数据错误可以被引入到企业的数据资产。 CRM跟踪销售和客户千变万化,不断移动的目标,数据质量差,可能会导致错失销售机会,以及心烦客户。只能提供商业智能作为源数据准确的信息。业务流程管理是唯一有效的,当交换的数据是准确的。中间件和数据集成只是把错误的数据从A点到B点,虽然实现可能将切换后的一个项目的一部分,持续监测数据质量数据清洗是目前没有一个典型的IT任务。

零延迟

的决策,不狠抓数据质量很可能会失败。不幸的是,传统的数据质量的方法是根本没有强大到足以满足这些新的需求。名称标准化,地址卫生,精度和人口数据质量解决方案都围绕着传统。虽然这些属性数据的质量是很重要的,他们实际上是无用的,在接近零延迟实施。传统的数据质量工具本质上是面向批处理和单次的努力,而目前需要的是一个事务性的,实时的解决方案。即使实时标准化名称,地址清洗,和人口分配的技术障碍是可以克服的,已经不存在了一个框架,用于测量这些活动的影响。即使他们可以被清理,将继续犯同样的错误发生时,数据被添加或操纵,需要更清理。

事实上,

的数据质量远远超出了数据清洗。数据质量以及企业数据在任何给定的时间与真实世界匹配。如果决策是根据质量差的数据,然后通过定义是没有能力做出准确的决策。幸运的是,有几个指标可以用来定义和测量的状态数据质量在企业数据质量。

定义数据质量

数据   质量可分为以下八大类:

  • 定义     
  • 完整性     
  • 有效期
  • 业务规则     
  • 结构的完整性     
  • 转换     
  • 数据流

域   描述了一个数据组中的值的范围和类型。典型错误   可能发生的与域有关的是:

意外     域值。系统的文档表示值     列(A,B,C),但数据实际上包含(A,B,C,D,E,F)。     这可以导致到各种致命问题。

基数。     基数表示数据集内发现的唯一值的数量。     对于主键,基数预期的总数等于     的记录,而一个是/否字段的基数预期是两个。     

唯一。     唯一在数据的程度,可以指向数据质量问题。一     98%的独特的领域,可能表示“垃圾”中的主键字段。

常量。     常数表明相同的值是存在于每一个记录。应用     往往忽略常数(因为他们知道什么是应该在那里),     从而创造了在下游活动中的诚信问题。在不断改变     通常表示程序逻辑中的变化,从上游的数据产生。     

的离群。     有些数据可能有完全出乎意料的值,如“数字家庭     成员“是著名的= -3。离群不知情的发电系统崩溃     的应用程序。

长度。     这指的是预期的数据的大小。小的变化,比如移动     从一个8位的6位数字标识符,可以打破应用遍及     的企业。

精密。     舍入和截断误差往往引入数据移动期间或     访问。

规模。     的数据被表示为百分比,一个因素,或一个时间段?它是可能的     比较100和1.00百分比?

国际。     数据可能有意想不到的邮递区号,时间或日期格式。

定义

定义实体是如何在整个企业中引用。虽然简单的词语,如“收入”可以有很大的不同含义横跨销售,营销,制造,金融,更微妙的是员工ID和发票 -> ID和发票> EMPLOYEE_ID可能存在的差异。定义问题,这些类别细分为:

英文名称。     不管是不是相同的实体准确的名称是相同的。领域EMP_ID,     EMPID,EM01可能会或可能不会实际上是指同一类型的数据。

同音词。     这表明,拼写相同的字段,但真的是不一样的。     常见的变量名“ID”,可能意味着很多不同的东西在不同的     上下文。

关系。     仅仅因为一个字段名为FK_INVOICE的并不意味着它确实是一个外国     发票文件的关键。

的      

完整性

的完整性指示是否所有的数据实际上是存在的。虽然这似乎小学,失踪的领域和价值也许是最常见的数据质量问题。完整性检查这些领域:

完整性。     实际数据是否符合我们的描述的数据?换言之,是     我们的元数据实际上是准确的吗?一个COBOL文件中未使用的字段是一个很好的     完整性问题,例如,

精度。     这往往是必要的检查数据之间的吻合程度     值和源极,它假设是正确的。比较汇总表     交易产生的实际金额往往会导致意想不到的结果。     同样,许多数据源可以比到外部第三方来源。     地址匹配和清洗,地名标准化和人口匹配     所有例子的准确性检查。

值出示。     这是指在何种程度上的属性的值是存在于     需要它们。如果我们50%的客户档案不会有一个电子邮件地址,     电子邮件营销活动可能是没有达到所需的课程     我们的客户。

可靠性。     你能依靠其上下文的数据?例如,邮政编码     匹配的城市和国家。

冗余。     是否有重复或近似重复数据?

一致性。     在数据有冲突吗?引用相同的发票编号     有两种不同的金额?

有效期

就像它的声音,

的有效性与否的数据是有效的。令人惊讶的是,许多企业的数据库是充斥着不正确的数据,可以。有效性检查包括:

可接受。     数据是否通过一组已知的可接受性测试?例如,一个部分     数字可能包括7位字母数字字符串开头的两个字母     数字和五个数字。

可靠性。     这是指数据将执行指定的功能的概率     对于一个给定的时间周期。例如,如何可靠的流量传感器     高峰时段?考虑商人谁买了一个热狗车,只有     地发现,“每小时收入”期间每年一次测量     商务会议。 (真实的故事!)

异常。     有“事实”中的数据,这些数据显然是不可能的吗?一名律师真的     法案一天48小时?车辆在加利福尼亚州和北卡罗莱纳州     在同一时间?

及时性。     是的数据是最新的吗?一个实时测量数据馈送最近     成功完成3个月前是不是非常有用。

业务规则

的业务规则检查的实际数据和测量的符合程度,数据预期的生产者和消费者。许多业务规则捕获系统寻求,套住知识在整个​​组织中的人的头。然而,从数据质量的角度看,重要的商业规则,可以客观地测量的。业务规则检查可以测量:

约束。     数据是否符合一组已知的约束条件?银行机构     所有信用卡客户可以有一个业务规则至少21     岁。凡是可以数学描述或算法     可以成为一个约束检查。

计算     规则。密切相关的约束,计算规则检查协议     根据方程式或一个算法在记录的值。计算     规则检查计算,例如保证金额相等于价格     时间成本。

比较。     这些业务规则检查领域内的预期之间的关系     记录。例如,SHIPDATE应永远不会小于订购日期。

条件。     这些规则表明某些数据对象的if-then逻辑。例如,     如果雇员2级,那么他或她应获加薪5%,     除非雇员的总工资超过$ 55,000 /年。

功能     依赖性。这些规则衡量跨列的数据不变。     例如,对于每一个客户号码的数据应该总是包含     同一客户名称。

结构完整性

的结构完整性检查,检查数据是否是一个宏观层面上完成。这些检查可确保当你把作为一个整体的数据,你得到正确的结果。结构完整性检查:

参照     诚信。如果我们期望两个数据元素之间的一对一的关系,     不存在的元素,A总是意味着B的存在吗?如果我们预期     一个一对多的关系,总是至少有一个B的每个A?许多     关闭应用程序和ETL作业的参照完整性检查,以     加快数据库加载(或使用一些其他的逻辑检查参照     诚信)。其结果是,数据在一个数据库中,假想     提供引用完整性往往是不正确的。

联系。     在我们的发票文件中不存在的部分目录?     有订单标记为已交付比不能匹配     发票?

主键。     主键是唯一的吗?

基数     检查。某些关系表明,列的基数     将是等效的。例如,查找字段的基数在主     应符合表查找表中查找字段的基数。     这可以被认为是宏观的角度域分析。

转换

转型检查,检查数据转换的影响,从系统到系统的数据移动。数据转换的逻辑可能出现故障,但检查它的唯一方法是比较的源和目标数据集和验证,改造了正确的地方。转型的检查包括:

过滤。     这验证了转让的记录,目的是要转移。为     例如,一个数据仓库加载可能需要转移上周     记录。

合并。     一些转换需要多个数据源合并在一起     以形成一个单一的目标。例如,一些客户可能会合并文件     在一起。合并检查指示是否等于整个     其各部分的总和。

转型     地图。这些检查验证预期已采取简单的转换     地方,如A -> 1,B -> 2,等A转换功能,适用于     源和目标的记录,以验证预期结果     产生。

计算。     目标中的一些字段源上的计算结果。例如,     总销量可能是由于销售额1 + SALES2的。此检查计算     从源预期的结果,并比较其在目标的结果。     

数据流

所关心的从源到目标的数据变动的总结果

的这些检查。许多数据质量问题可以追溯到不正确的负载,错过了负载,或者被忽视的系统故障。自动数据传输,不会立即核实可检测的方式在一个错误的数据填充目标系统。这些检查的历史图表,是非常宝贵的,在性能方面的问题。数据流的问题包括:

缺少记录     跨系统。这组检查,确定是否存在的记录     在源系统实际上到目标系统。为什么会出现     客户在客户服务系统是未知的订单录入     系统?

记录计数。     一个非常简单的检查,记录计数只是验证数     在目标系统中产生的记录不如预期。重复的主键     往往导致在目标比预期更少的记录。

校验。     当一列或表转让预期,简单的校验     可以验证写入数据不如预期。

时间戳。     如预期中的数据源负载区域的时间戳?有     我们以前加载的一个文件,这个时间戳?

处理时间。     转让大量的时间来完成?及时     找出转让,增量放缓,每天晚上允许     管理的资源和防火。

摘要

的这些检查是在履行承诺零延迟分析至关重要。以上的40个类别,但是,只有一个类别,精度,处理由传统的姓名和地址的数据清洗工具。这意味着,仅仅因为CRM系统的客户地址的文件已被清理,它不提供一种保证该数据将保持准确的系统是用新的数据被添加。 所以

的数据质量是什么意思呢?数据质量提供了信心的决定是根据准确的数据。虽然这是不可能保证所有的数据是100%准确100%的时间,大力检查,定期的数据,以验证符合业务规则的最佳方式是在企业数据保护投资。提供近实时的信息,这是一件事,但维持,近实时的信息的完整性,则是另一回事。除非信息是基于高质量的数据,结果将仅仅是糟糕的决定做快。

  总结第一部分由两部分组成的文章数据质量管理的重要性。   

部分   二将讨论笔者的经验,在解决这个问题。

关于   作者

莱蒙的

Greg的CEO,公司Metagenix

Metagenix   公司(www.metagenix.com)   是开发商的数据质量工具。公司建立的解决方案,让   监测数据的质量在整个企业组织。该公司的   最新的产品,MetaPure,是一个国家的最先进的连续数据质量管理   (CDQM)工具。数据质量分析的新发展,MetaPure接管   清洁工具,离开了传统的数据,提供实时的保险   对质量较差的数据,CRM,ERP,商业智能,供应政策   链管理整个企业的应用

 
comments powered by Disqus

近期搜索:
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Others