数据湖复杂化数字治理和合规性

日期:2016-8-12作者:David Loshin翻译:陈晓诚来源:TechTarget中国 英文

数据湖   数字治理   

【TechTarget中国原创】

随着企业不断利用数据湖的分析优势,企业数据湖已经成为常态,但是它们的普及,应该让公司重新考虑数字治理和合规性。

企业内的大数据分析的增加,让“数据湖”不断增长,这是所有可以用于分析的信息资产的默认存储库,对于期望从数据中获得额外价值的公司而言,非常有益。但很多公司允许猖獗的积累,并不断将数据源倾倒入这些数据湖中,无意中带来了合规性风险。

数据目录工具可以帮助减轻这些风险,但在我们讨论这些工具之前,让我们来谈谈数据湖带来合规性问题的用例,以及为什么缺乏数数据湖治理战略,是如此危险。

在华尔街改革和消费者保护法第153 d(f)部分中描述了一个用例,它允许美国金融研究办公室(OFR)的主任向一家金融机构发出传票,要求提供所需要的数据, 来监督美国金融稳定性的潜在风险。这一传票的权力,并不局限于特定时间内的,一个特定类型的结构化数据库。相反,可以在任何时间要求任何数据。实际上,这意味着金融机构必须清楚他们管理的所有数据,以及数据所包含的信息,以及这些信息和其他数据集的关联。

另一个用例是大量的数据保护法规,对于信息暴露的处罚。The HIPAA Privacy Rule保护大多数“个人识别健康信息”——包括姓名,电话号码,地址,社保号码,也被称为病人的受保护健康信息(PHI)。The HIPAA Privacy Rule指出,“一个实体或商业团体必须(…)为电子信息系统实施技术政策和流程,维护电子受保护健康信息,只允许那些获得授权的人或软件进行访问。”

这就要求监测和减少任何潜在的PHI暴露风险,无论是源于个体黑客或软件应用。因此,企业数据湖中累积的数据,或其他类型的大容量存储库,公司不仅要确定哪些数据包含PHI数据,他们也必须清楚不同的数据集的组合,可能在不经意间暴露受保护的健康数据。

大数据分析与合规性

上述两个用例,凸显了数字化业务中的新兴挑战。数据积累对于预测和规范分析,有非常明显的好处。这激发了许多企业摄取外部来源的数据集,以扩大从内部事务和运行应用中,提取的自己的数据集。许多企业同时关注数据回收,其中的非结构化数据,比如过往的电子邮件,文档和幻灯片,通过访问它们的存档,然后加载到同一个业务数据湖中。

这种无节制的,大规模数据存储库的不受控制的增长,带来了合规性风险。随着越来越多的数据集被添加到数据湖中,很难快速的,准确的响应OFR的数据需求,或区分哪些PHI处于暴露的风险。

数据合规性的适当数字治理,对于现代企业,是一个复杂的过程:一个公司必须识别和仔细记录企业现有的数据资产,以及这些资产中信息如何反映已知的信息监管。但在大多数情况下,几乎没有人确切地知道哪些数据存在,这些数据中的数据分类,如何访问数据,以及谁拥有访问数据的权限,以及企业数据湖内的数据累积,可能涉及到的法规。当合规性审查数据到来时,缺乏企业数字治理环境的知识,会带来明显的障碍。许多人忙着寻找数据集的关联性,以及如何为适当的合规性响应,累积所需的信息。

自动数据目录的崛起

应对这些挑战的方法之一,就是使用自动化工具,调查和描述企业的每个数据,分析包含的信息类型。这使得公司能够创建并管理一个共享语义目录。这个数据目录提升了对不同数据集中包含内容的认识,列出的细节包括:

业务内容,现实世界数据类型的高度概括,包含在数据集内的信息,比如账号、姓名、位置和其他抽象实体概念。

存储在数据集中的属性名称。

  • 创建、获取、读取或更新数据集的任何业务部门/流程的细节。
  • 数据集的存储位置,和访问信息的方式。
  • 读取数据所需的访问权限,以及获得访问数据权限的个人和应用程序。

从合规性角度来看,一个体现语义数据意识的数据目录,有助于确保实施适当的安全措施,进行数据保护和隐私合规性。此外,拥有包含信息细节的数据目录,可以简化对于消除合规性风险的外部数据调用需求的响应。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者>更多

David Loshin
David Loshin

Knowledge Integrity公司总裁,专注商务智能、大数据、数据质量、数据治理和主数据管理。

数据存储管理>更多

  • 6倍性能差100TB容量 阿里云POLARDB如何实现?

    POLARDB是阿里云数据库团队研发的基于第三代云计算架构下的商用关系型云数据库产品,100%向下兼容MySQL 5.6;支持单库容量扩展至上百TB以及秒级扩展能力。对比MySQL有6倍性能提升,相对于商业数据库实现大幅度降低成本。

  • 多用途数据主导“物联网未来”的实施

    在最近出版的《物联网的未来》中,联合作者之一Don DeLoach向我们介绍了目前的物联网状况,我们将去向哪里,以及为什么一个更全面的方法可以帮助我们到达那里。

  • 2017年五种物联网架构解决方案

    我们为2017年分享五种物联网解决方案,这是让你的企业成功步入物联网道路的起点:包括捕获新的数据源、审视一项新应用、建立一个物联网分析应用等等。

  • 总统选举预测失败:大数据分析不过如此

    在美国总统选举前大约60个小时,几乎全世界——都认为共和党候选人、企业家和真人秀明星Donald J. Trump,不会,也不可能赢。

相关推荐

  • 数据湖:不治理便破产

    数据湖,或数据中心,是一种在不牺牲数据结构的情况下, 摄取数据的存储仓库和处理系统,已经成为现代数据架构和大数据管理的同义词。

  • 实施数据湖的三个关键因素

    像任何其他工具或技术一样,数据湖是一种存储库和处理引擎,有它的优点和缺点。它的著名优点之一是,可以在不牺牲数据格式的情况下,摄取数据,为数据科学家提供更大的灵活性。

  • 探讨企业数据架构战略和数据湖的可能性和必要性

    现今的企业数据架构战略,必须解决如何将现有的数据系统与日益增长的信息需求,性能和数据源相匹配。

技术手册>更多

  • BlackBerry浏览器使用指南

    BlackBerry 手机上用途广泛的功能之一就是Web浏览器。BlackBerry浏览器使用指南解释了如何配置BlackBerry互联网浏览器服务(BIBS)。本专题中介绍了BlackBerry浏览器的激活方式、浏览互联网的方式、书签功能、管理浏览器选项和缓存清除等问题。

  • 敏捷方法详解

    敏捷方法强调迭代的软件设计和开发,它可以让团队在经常性的间隔中发布软件功能。敏捷方法和传统的瀑布模式不同。传统的瀑布模式包括提前整理所有的需求,并在最后发布完成后的软件应用。在业务变化的时候,有些公司已经从瀑布模式转到了敏捷,因为敏捷具有灵活的流程和在开发周期中不断改善产品的能力。本系列敏捷方法常见问题涉及敏捷方法的不同类型,可以采用的工具以及在架构项目中如何运用敏捷。

  • CIO如何打造绿色的数据中心

    作为IT中心的管理者,CIO应该如何让数据中心从过去的成本中心,转型为效果卓越的创新中心?CIO应该通过何种办法,让IT以及数据中心变成一个利润与创新中心?实现这样的转型,对未来人们如何看待和评价IT部门以及IT架构至关重要。

  • 不容忽视的企业灾难恢复

    灾难恢复(Disaster Recovery)则可将信息系统从灾难 造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态。可以说,灾难恢复是信息系统安全的最后防线。

TechTarget

最新资源
  • 安全
  • 存储
  • 数据库
  • 虚拟化
  • 网络
  • 数据中心