数据湖复杂化数字治理和合规性

日期:2016-8-12作者:David Loshin翻译:陈晓诚来源:TechTarget中国 英文

数据湖   数字治理   

【TechTarget中国原创】

随着企业不断利用数据湖的分析优势,企业数据湖已经成为常态,但是它们的普及,应该让公司重新考虑数字治理和合规性。

企业内的大数据分析的增加,让“数据湖”不断增长,这是所有可以用于分析的信息资产的默认存储库,对于期望从数据中获得额外价值的公司而言,非常有益。但很多公司允许猖獗的积累,并不断将数据源倾倒入这些数据湖中,无意中带来了合规性风险。

数据目录工具可以帮助减轻这些风险,但在我们讨论这些工具之前,让我们来谈谈数据湖带来合规性问题的用例,以及为什么缺乏数数据湖治理战略,是如此危险。

在华尔街改革和消费者保护法第153 d(f)部分中描述了一个用例,它允许美国金融研究办公室(OFR)的主任向一家金融机构发出传票,要求提供所需要的数据, 来监督美国金融稳定性的潜在风险。这一传票的权力,并不局限于特定时间内的,一个特定类型的结构化数据库。相反,可以在任何时间要求任何数据。实际上,这意味着金融机构必须清楚他们管理的所有数据,以及数据所包含的信息,以及这些信息和其他数据集的关联。

另一个用例是大量的数据保护法规,对于信息暴露的处罚。The HIPAA Privacy Rule保护大多数“个人识别健康信息”——包括姓名,电话号码,地址,社保号码,也被称为病人的受保护健康信息(PHI)。The HIPAA Privacy Rule指出,“一个实体或商业团体必须(…)为电子信息系统实施技术政策和流程,维护电子受保护健康信息,只允许那些获得授权的人或软件进行访问。”

这就要求监测和减少任何潜在的PHI暴露风险,无论是源于个体黑客或软件应用。因此,企业数据湖中累积的数据,或其他类型的大容量存储库,公司不仅要确定哪些数据包含PHI数据,他们也必须清楚不同的数据集的组合,可能在不经意间暴露受保护的健康数据。

大数据分析与合规性

上述两个用例,凸显了数字化业务中的新兴挑战。数据积累对于预测和规范分析,有非常明显的好处。这激发了许多企业摄取外部来源的数据集,以扩大从内部事务和运行应用中,提取的自己的数据集。许多企业同时关注数据回收,其中的非结构化数据,比如过往的电子邮件,文档和幻灯片,通过访问它们的存档,然后加载到同一个业务数据湖中。

这种无节制的,大规模数据存储库的不受控制的增长,带来了合规性风险。随着越来越多的数据集被添加到数据湖中,很难快速的,准确的响应OFR的数据需求,或区分哪些PHI处于暴露的风险。

数据合规性的适当数字治理,对于现代企业,是一个复杂的过程:一个公司必须识别和仔细记录企业现有的数据资产,以及这些资产中信息如何反映已知的信息监管。但在大多数情况下,几乎没有人确切地知道哪些数据存在,这些数据中的数据分类,如何访问数据,以及谁拥有访问数据的权限,以及企业数据湖内的数据累积,可能涉及到的法规。当合规性审查数据到来时,缺乏企业数字治理环境的知识,会带来明显的障碍。许多人忙着寻找数据集的关联性,以及如何为适当的合规性响应,累积所需的信息。

自动数据目录的崛起

应对这些挑战的方法之一,就是使用自动化工具,调查和描述企业的每个数据,分析包含的信息类型。这使得公司能够创建并管理一个共享语义目录。这个数据目录提升了对不同数据集中包含内容的认识,列出的细节包括:

业务内容,现实世界数据类型的高度概括,包含在数据集内的信息,比如账号、姓名、位置和其他抽象实体概念。

存储在数据集中的属性名称。

  • 创建、获取、读取或更新数据集的任何业务部门/流程的细节。
  • 数据集的存储位置,和访问信息的方式。
  • 读取数据所需的访问权限,以及获得访问数据权限的个人和应用程序。

从合规性角度来看,一个体现语义数据意识的数据目录,有助于确保实施适当的安全措施,进行数据保护和隐私合规性。此外,拥有包含信息细节的数据目录,可以简化对于消除合规性风险的外部数据调用需求的响应。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

David Loshin
David Loshin

Knowledge Integrity公司总裁,专注商务智能、大数据、数据质量、数据治理和主数据管理。

数据存储管理>更多

  • 2017年五种物联网架构解决方案

    我们为2017年分享五种物联网解决方案,这是让你的企业成功步入物联网道路的起点:包括捕获新的数据源、审视一项新应用、建立一个物联网分析应用等等。

  • 总统选举预测失败:大数据分析不过如此

    在美国总统选举前大约60个小时,几乎全世界——都认为共和党候选人、企业家和真人秀明星Donald J. Trump,不会,也不可能赢。

  • IoT数据分析可能需要混合方法

    当构建一个物联网项目时,CIO和业务都会思考一个问题:应该在哪里进行数据分析,在边界还是在云中?

  • 没有数据驱动文化 大数据项目将失败

    Nationwide Insurance公司的IT架构的副总裁,对于数据专家渴望获得大数据项目的成功,给出了一些建议:大数据项目失败的最大原因之一,既不是技术,也不是数据的数量。而是人。

相关推荐

  • 数据湖:不治理便破产

    数据湖,或数据中心,是一种在不牺牲数据结构的情况下, 摄取数据的存储仓库和处理系统,已经成为现代数据架构和大数据管理的同义词。

  • 实施数据湖的三个关键因素

    像任何其他工具或技术一样,数据湖是一种存储库和处理引擎,有它的优点和缺点。它的著名优点之一是,可以在不牺牲数据格式的情况下,摄取数据,为数据科学家提供更大的灵活性。

  • 探讨企业数据架构战略和数据湖的可能性和必要性

    现今的企业数据架构战略,必须解决如何将现有的数据系统与日益增长的信息需求,性能和数据源相匹配。

技术手册>更多

  • 不容忽视的企业灾难恢复

    灾难恢复(Disaster Recovery)则可将信息系统从灾难 造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态。可以说,灾难恢复是信息系统安全的最后防线。

  • CIO如何利用桌面虚拟化

    虚拟化是把昂贵的计算机资源的利用最大化的方式,它起源于20世纪60年代。早期的桌面虚拟化完全把操作系统从个人电脑上分离出去,把它放在数据中心,只给用户留下输入和显示功能。最新的桌面虚拟化版本,充分利用虚拟化电脑的力量处理大部分进程。在这本技术手册中,将为您从企业CIO的角度介绍桌面虚拟化,例如桌面虚拟化的成本节约体现在哪些方面、桌面虚拟化成本节约的争议以及桌面虚拟化给企业和CIO带来的利益等。

  • 四问企业数据管理策略

    随着海量数据的涌现,企业目前要管理的数据量前所未有。恰当的企业数据管理策略对于合规来说非常重要,如果数据管理策略缺失,就会出现相应的后果。本技术手册将会介绍合适企业状况的数据管理策略,并分析为什么偏执对数据管理来说是好事。本手册还介绍了企业数据存储管理,以及为什么企业应用架构还没落伍。

  • 企业Web2.0应用

    Web 2.0的经验是:有效利用消费者的自助服务和算法上的数据管理,以便能够将触角延伸至整个互联网,延伸至各个边缘而不仅仅是中心,延伸至长尾而不仅仅是头部。当然,企业在应用Web 2.0时也会遇到很多的问题。

TechTarget

最新资源
  • 安全
  • 数据库
  • 虚拟化
  • 数据中心
  • 云计算
  • 商务智能