数据湖复杂化数字治理和合规性

日期:2016-8-12作者:David Loshin翻译:陈晓诚来源:TechTarget中国 英文

数据湖   数字治理   

【TechTarget中国原创】

随着企业不断利用数据湖的分析优势,企业数据湖已经成为常态,但是它们的普及,应该让公司重新考虑数字治理和合规性。

企业内的大数据分析的增加,让“数据湖”不断增长,这是所有可以用于分析的信息资产的默认存储库,对于期望从数据中获得额外价值的公司而言,非常有益。但很多公司允许猖獗的积累,并不断将数据源倾倒入这些数据湖中,无意中带来了合规性风险。

数据目录工具可以帮助减轻这些风险,但在我们讨论这些工具之前,让我们来谈谈数据湖带来合规性问题的用例,以及为什么缺乏数数据湖治理战略,是如此危险。

在华尔街改革和消费者保护法第153 d(f)部分中描述了一个用例,它允许美国金融研究办公室(OFR)的主任向一家金融机构发出传票,要求提供所需要的数据, 来监督美国金融稳定性的潜在风险。这一传票的权力,并不局限于特定时间内的,一个特定类型的结构化数据库。相反,可以在任何时间要求任何数据。实际上,这意味着金融机构必须清楚他们管理的所有数据,以及数据所包含的信息,以及这些信息和其他数据集的关联。

另一个用例是大量的数据保护法规,对于信息暴露的处罚。The HIPAA Privacy Rule保护大多数“个人识别健康信息”——包括姓名,电话号码,地址,社保号码,也被称为病人的受保护健康信息(PHI)。The HIPAA Privacy Rule指出,“一个实体或商业团体必须(…)为电子信息系统实施技术政策和流程,维护电子受保护健康信息,只允许那些获得授权的人或软件进行访问。”

这就要求监测和减少任何潜在的PHI暴露风险,无论是源于个体黑客或软件应用。因此,企业数据湖中累积的数据,或其他类型的大容量存储库,公司不仅要确定哪些数据包含PHI数据,他们也必须清楚不同的数据集的组合,可能在不经意间暴露受保护的健康数据。

大数据分析与合规性

上述两个用例,凸显了数字化业务中的新兴挑战。数据积累对于预测和规范分析,有非常明显的好处。这激发了许多企业摄取外部来源的数据集,以扩大从内部事务和运行应用中,提取的自己的数据集。许多企业同时关注数据回收,其中的非结构化数据,比如过往的电子邮件,文档和幻灯片,通过访问它们的存档,然后加载到同一个业务数据湖中。

这种无节制的,大规模数据存储库的不受控制的增长,带来了合规性风险。随着越来越多的数据集被添加到数据湖中,很难快速的,准确的响应OFR的数据需求,或区分哪些PHI处于暴露的风险。

数据合规性的适当数字治理,对于现代企业,是一个复杂的过程:一个公司必须识别和仔细记录企业现有的数据资产,以及这些资产中信息如何反映已知的信息监管。但在大多数情况下,几乎没有人确切地知道哪些数据存在,这些数据中的数据分类,如何访问数据,以及谁拥有访问数据的权限,以及企业数据湖内的数据累积,可能涉及到的法规。当合规性审查数据到来时,缺乏企业数字治理环境的知识,会带来明显的障碍。许多人忙着寻找数据集的关联性,以及如何为适当的合规性响应,累积所需的信息。

自动数据目录的崛起

应对这些挑战的方法之一,就是使用自动化工具,调查和描述企业的每个数据,分析包含的信息类型。这使得公司能够创建并管理一个共享语义目录。这个数据目录提升了对不同数据集中包含内容的认识,列出的细节包括:

业务内容,现实世界数据类型的高度概括,包含在数据集内的信息,比如账号、姓名、位置和其他抽象实体概念。

存储在数据集中的属性名称。

  • 创建、获取、读取或更新数据集的任何业务部门/流程的细节。
  • 数据集的存储位置,和访问信息的方式。
  • 读取数据所需的访问权限,以及获得访问数据权限的个人和应用程序。

从合规性角度来看,一个体现语义数据意识的数据目录,有助于确保实施适当的安全措施,进行数据保护和隐私合规性。此外,拥有包含信息细节的数据目录,可以简化对于消除合规性风险的外部数据调用需求的响应。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

David Loshin
David Loshin

Knowledge Integrity公司总裁,专注商务智能、大数据、数据质量、数据治理和主数据管理。

数据存储管理>更多

  • 多用途数据主导“物联网未来”的实施

    在最近出版的《物联网的未来》中,联合作者之一Don DeLoach向我们介绍了目前的物联网状况,我们将去向哪里,以及为什么一个更全面的方法可以帮助我们到达那里。

  • 2017年五种物联网架构解决方案

    我们为2017年分享五种物联网解决方案,这是让你的企业成功步入物联网道路的起点:包括捕获新的数据源、审视一项新应用、建立一个物联网分析应用等等。

  • 总统选举预测失败:大数据分析不过如此

    在美国总统选举前大约60个小时,几乎全世界——都认为共和党候选人、企业家和真人秀明星Donald J. Trump,不会,也不可能赢。

  • IoT数据分析可能需要混合方法

    当构建一个物联网项目时,CIO和业务都会思考一个问题:应该在哪里进行数据分析,在边界还是在云中?

相关推荐

  • 数据湖:不治理便破产

    数据湖,或数据中心,是一种在不牺牲数据结构的情况下, 摄取数据的存储仓库和处理系统,已经成为现代数据架构和大数据管理的同义词。

  • 实施数据湖的三个关键因素

    像任何其他工具或技术一样,数据湖是一种存储库和处理引擎,有它的优点和缺点。它的著名优点之一是,可以在不牺牲数据格式的情况下,摄取数据,为数据科学家提供更大的灵活性。

  • 探讨企业数据架构战略和数据湖的可能性和必要性

    现今的企业数据架构战略,必须解决如何将现有的数据系统与日益增长的信息需求,性能和数据源相匹配。

技术手册>更多

  • CIO实用攻略:利用ITIL完善企业IT服务

    ITIL(IT Infrastructure Library)是CCTA(英国国家计算机和电信局)于20世纪80年代末开发的一套IT服务管理标准库,它把英国各个行业在IT管理方面的最佳实践归纳起来变成规范,IT基础设施库(ITIL)旨在帮助CIO和其他IT专业人员改善其IT组织的流程。ITIL的第3版在这一概念基础上继续扩展,对于如何进行这些流程给出了指导意见。ITIL是公司的一个具有价值的资产,它可以改善公司外部和内部的IT流程,提高IT效率等。

  • 开发和配置BlackBerry应用的最佳实践

    在任何BlackBerry应用开发项目开始前,开发人员首先必须确定以下几个方面:1.应用访问服务器数据上的方式;2.应用是否可以在本地复制数据还是要访问服务器上的数据;3.应用上的数据是否可以推送到应用上 或者从服务器上获取?4.应用应该购买还是内部开发;5.开发应用应该使用哪种平台支持的应用技术。本技术手册将介绍解决以上问题的时候应该如何选择。

  • 项目管理成败经验总结手册

    作为CIO,你有责任设定项目愿景和预期。你的项目经理们应该定义好各种里程碑,然后需要的时间征求相关人员的意见。本技术手册着重分析了项目管理失败和成功的经验,并就对敏捷和云计算对项目管理的影响作了介绍。作为CIO,你有责任设定项目愿景和预期。你的项目经理们应该定义好各种里程碑,然后需要的时间征求相关人员的意见。本技术手册着重分析了项目管理失败和成功的经验,并就对敏捷和云计算对项目管理的影响作了介绍。

  • 企业应该如何应对经济低迷

    金融危机将全球拖入了一个惨淡的经济低迷期,很多企业在此次金融危机同样受到了很大的影响。企业开始大规模的裁员或者通过其它的方法来减少企业的成本控制。信息化已经为企业控制成本和生存的必要因素之一,在成本控制及金融危机的大环境下,IT是减少投入还是应该增加投入?企业CIO们应该如何调整IT预算呢?

TechTarget

最新资源
  • 安全
  • 数据库
  • 虚拟化
  • 数据中心
  • 云计算
  • 商务智能