如何找出企业内部的“暗数据”?

日期:2015-8-24作者:杜绍森(Informatica公司中国区首席技术顾问) 来源:TechTarget中国

大数据   暗数据   IT安全   

编者按:本文作者为Informatica公司中国区首席技术顾问杜绍森,将探讨什么是“暗数据”以及如何应对“暗数据”,正如作者所言:我们对数据的挖掘还处在一个非常初级的阶段,可将其称之为“黎明前的黑暗”阶段。

在自然界中有一种物质叫做“暗物质”,从物理学家的解释来看,“暗物质”是自然界当中最充满能量的部分,如何发挥“暗物质”的作用是当代自然科学研究的话题。而在数据科学领域,人们都在讨论如何发掘隐藏在企业内部和整个互联网上巨量的“暗数据”,怎样发挥“暗数据”的价值。

有一种说法,人类只要利用大脑的 10%,就可以实现长生不老。即便在无数神经学家将其斥为胡编乱造的无稽之谈,多年以后,我们还是不会放弃这种念头,因为我们知道自身还有很多潜力没有发挥,只是有待发掘。同样,许多企业也仅利用了数据的一小部分,而把经过巨大的开销存储着的关于流程、员工、客户和产品的宝贵数据放在数据孤岛中,无法有效利用。我们对数据的挖掘还处在一个非常初级的阶段,可将其称之为“黎明前的黑暗”阶段。

定义“暗数据”

“暗数据”是指企业已付费购买、收集以及存储在各种系统和数据存储中,但实际上目前并未使用、分析甚至访问的所有数据。我们可以将“暗数据”视为大数据的子集,它可以包括存储在 CRM 数据仓库的结构化数据、日志文件甚至来自于社交媒体的非结构化数据等所有数据。

暗数据

当然,有些企业已经实施数据仓库或者大数据平台,清楚数据的存在,并正在发掘数据的价值,但他们依然存在暗数据的问题。因为实施数据仓库常常是站在IT的角度,对于IT来讲或许已经是可以利用的明数据,对于其它部门,尤其是业务部门如果没有充分有效的利用手段和方式,仍然是“暗数据”。如果您实际上无法利用付费购买的数据,那么最终您就无法对企业的整体行为形成一致观点。这意味着您将无法分析流程、合理配置资源,也无法在系统中找到代表您的专有优势的数据。

“暗数据”产生

显而易见, 没有任何组织主动采取低效、 昂贵和不明智的措施。但一系列新应用程序和大量新数据已使很多公司忽视了他们已经拥有和付费购买的数据。为何会有这么多“暗数据”存在?我们从以下四点来解释:

1、企业甚至没有意识到数据的存在

企业不止有IT部门,还有更多的业务人员、管理决策人员,当他们尝试解答疑难问题或改进工作方式时,会回避寻找并分析自己不熟悉的数据集的挑战,这种情况十分常见。不幸的是,往往由于缺乏技能、时间或能力,他们很难将正确的数据公诸于世,这在日常的工作当中是非常典型的一种场景。举例说明,有些企业表示不清楚到底有多少客户,这是真的吗?回答是否定的,因为现在的企业IT已非常完善,每一笔客户的交易信息都会存在系统当中,或许有些数据质量不是很好,但它们都是存在的,只是企业自己没有意识到。如果这些数据以整个组织都能访问的方式存储,就能为更多业务部门、项目团队提供支持,进而制定更明智的决策,并对更多假设进行测试。

2、企业意识到数据的存在,但不知道具体位置,利用的手段和方法也不足

企业已经建设了很多数据管理系统,知道数据是存在的,但如果组织的数据体系结构或复杂的数据流程起到阻碍作用,那就很难访问数据。如果各个部门都在数据孤岛中工作,并且数据保存在遗留数据存储中,那么即使是求知欲最强的团队也会徒然碰壁。如果没有制定关于存储和管理所有这些数据的整个企业范围的战略,那么组织的决策质量仍将受制于内部组织架构和过时的技术。

3、实际利用数据过于昂贵阻碍了数据使用的效果

即使企业已经发现了所需的“暗数据”,通常也必须面对与在遗留系统上处理这些数据相关的一连串成本问题,如数据利用的环节过长。即便他们通过使用Hadoop此类的新软件架构,在价格较低廉的硬件上复制这些数据来努力避免这些成本,但与迁移流程和获取新技能相关联的初始成本对于单个项目而言,通常仍显得过高。这也造成了很多的数据其实仍然是未被充分使用的状态,仍然隐藏在我们的IT系统和日常流程当中。为了充分利用企业已拥有的数据,需要为更现代化的数据体系结构奠定基础,否则,您仍会继续为数据支付巨额费用,却无法承担对其进行分析产生的成本。

4、某些数据存在遵守法律的问题

如金融、电信、医疗等行业的数据量非常多,但无法将某些数据提供给任何人分析,最重要的原因之一是害怕违反法律法规的要求。对于企业而言,要使其拥有的数据具有意义,需要部署明确定义的流程和工具,以保证这些数据的安全性。Informatica 有专门的解决方案,叫做数据脱敏(Data Masking),保证数据隐私不被泄露的情况下充分利用数据。

公开“暗数据”

既然我们面临着非常多的“暗数据”,那么公开就是它的对立面,叫做数据的透明化,我们期望的结果是企业中所有数据,对企业的任何一个参与者——IT、业务、决策、财务——都是透明的,在他们想分析的时候都能找到所需的数据。

任何企业在发掘数据价值的时候,往往包括三种典型的角色:集成商、IT部门和业务部门。人们常常讨论谁才是数据的主人,一般认为是业务部门,但完成实际操作过程的却是集成商,似乎所有的报表都是集成商来做,所有的分析也是集成商完成。在数据分析数据使用中有一个常常被大家忽略的过程,被称为数据的探索和探查的过程也是由集成商来完成。这其实是业务模式的一个致命弱点,由集成商完成数据探查工作,再根据业务或者IT提的报表分析需求来使用这些数据,使用数据的主体——业务部门并没有参与探索数据,并没有亲身体验分析数据的过程。

业务部门参与数据挖掘对数据价值的实现大小关系密切。如果找集成商来做大数据平台可能也叫BIG DATA,但这个“BIG”很小;假如IT部门能充分参与架构设计和数据的探索过程,这个“BIG”会变得大一点;假如业务部门也参与可能使“BIG”变得更大,数据在企业中的流程也会缩短,业务部门会知道数据的存放位置,“暗数据”问题能够更快解决。

业务部门如何才能自我分析数据,实现自助服务?他们需要一个有效的IT支撑手段,需要IT把暗数据透明化,变成透明的数据。实现数据透明化的一个基础是数据标准化,建立标准化平台。暗 数 据存在于不同系统中,需要重新格式化、解析、筛选、标准化、整合以及细 化, 使 其 为 输 入 到 任何分 析 工 具 和 应 用 程 序 中 做 好准备。

真正释放“暗数据”潜能,让数据见光需要一定的策略变化,除了上述的要启动业务部门的自助服务的能力,以及启动IT部门的标准化构建,还有一个关键点是启动可重复利用“暗数据”的流程。大多数公司所犯的最大错误是认为他们只需对其“暗数据”进行一次深入探究,这可不止是一个一次性的流程。数据只会不断增长,无论是规模、多样性还是价值,提供数据的应用程序的数量和类型也会不断变化,因此,与其一遍又一遍地解决单个“暗数据”项目,应该考虑建立一个可重复的流程。这意味着采用所需技术,建立现代化的基础架构,以使您的所有数据随时可供访问并保持一致,使其保持洁净、安全、互联互通。

“暗数据”并非仅仅表明技术开支效率低下,它还表明企业难以利用其积累起来的丰富知识,“暗数据”是一个有待发掘的潜在金矿。在我国当前新型工业化进程中,提倡大数据的前奏叫数字化,数字化能够贯通各个环节,把原来可能隐藏在工业流程当中的数据释放出来,用数据来描述工业流程,这也成为众多领先企业希望征服“暗数据”的原因所在。

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

数据存储管理>更多

  • 6倍性能差100TB容量 阿里云POLARDB如何实现?

    POLARDB是阿里云数据库团队研发的基于第三代云计算架构下的商用关系型云数据库产品,100%向下兼容MySQL 5.6;支持单库容量扩展至上百TB以及秒级扩展能力。对比MySQL有6倍性能提升,相对于商业数据库实现大幅度降低成本。

  • 多用途数据主导“物联网未来”的实施

    在最近出版的《物联网的未来》中,联合作者之一Don DeLoach向我们介绍了目前的物联网状况,我们将去向哪里,以及为什么一个更全面的方法可以帮助我们到达那里。

  • 2017年五种物联网架构解决方案

    我们为2017年分享五种物联网解决方案,这是让你的企业成功步入物联网道路的起点:包括捕获新的数据源、审视一项新应用、建立一个物联网分析应用等等。

  • 总统选举预测失败:大数据分析不过如此

    在美国总统选举前大约60个小时,几乎全世界——都认为共和党候选人、企业家和真人秀明星Donald J. Trump,不会,也不可能赢。

相关推荐

  • 2016年预测:安全成IT焦点

    根据TechTarget对248位受访者(CIO、CTO、CISO、IT副总裁和总监)进行的2015年度薪酬和职业调查,安全将成为CIO以及IT高层管理人员在2016年的重点关注领域。

  • 2015年IT优先级:安全第一,移动不再优先

    根据TechTarget的IT薪酬和职业发展调查,IT高管们表示,2015年将会是属于安全性,云计算和商务智能/大数据项目的一年。移动化技术则不再是首要项目了。

  • 一个真实灾难恢复现场是什么样子的?

    如今随便在网上搜索一下,关于“灾难恢复”的信息数不胜数,各种方法和技巧成为IT从业者们每天都在寻找的资料,本文将为读者们展现出一个真实而又残酷的灾难恢复现场情景。本文的叙述者Harvey Koeppel是一位IT行业的老兵,当时他作为一家全球都有分支机构的银行CIO,当他被派往东亚地区工作的时候,灾难发生了.......

  • CIO工作职责和描述变化的六种方式(二)

    在2012年的CIO工作年度调查中,高级IT成员询问了被要求开发的技能,以更好地完成CIO的工作。我们在这里提出了调查中IT高层提到的六种新技能,从低到高排列。

技术手册>更多

  • 不容忽视的企业灾难恢复

    灾难恢复(Disaster Recovery)则可将信息系统从灾难 造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态。可以说,灾难恢复是信息系统安全的最后防线。

  • 移动服务管理指南

    在《移动服务管理指南》技术手册中,TechTarget的专家研究了设备管理、电子邮件、企业应用和手持设备技术等的管理服务。此外,本手册中还提供了一系列服务管理的最佳实践。

  • 项目管理成败经验总结手册

    作为CIO,你有责任设定项目愿景和预期。你的项目经理们应该定义好各种里程碑,然后需要的时间征求相关人员的意见。本技术手册着重分析了项目管理失败和成功的经验,并就对敏捷和云计算对项目管理的影响作了介绍。作为CIO,你有责任设定项目愿景和预期。你的项目经理们应该定义好各种里程碑,然后需要的时间征求相关人员的意见。本技术手册着重分析了项目管理失败和成功的经验,并就对敏捷和云计算对项目管理的影响作了介绍。

  • 企业CIO的业务流程管理(BPM)策略

    业务流程管理(BPM)是一个描述一组服务和工具的一般名词,这些服务和工具为显式的流程管理(如流程的分析、定义、执行、监视和管理)提供支持。业务流程管理(business process management,BPM)不仅仅只是作为一种工具,同时也作为一门科学。BPM能使企业流程更加有效,更加高效地适应不断变化的环境。

TechTarget

最新资源
  • 安全
  • 存储
  • 数据库
  • 虚拟化
  • 网络
  • 数据中心