大数据“老兵”畅谈大数据基础设施建设

日期:2013-1-28作者:Linda Tucci 翻译:赵赛坡来源:TechTarget中国 英文

大数据   CIO   数据库   数据中心   

【TechTarget中国原创】

Martin Leach在大数据工作方面非常忙碌。他曾作为MIT和哈佛大学联合开办的Broad研究所的CIO,在那里,他要负责13PB数据的存储,使用超级计算机进行计算。他和他的团队为人类基因图绘制工作做出了卓越贡献。

  在研究所之前,他团队所支持的研究小组为医药巨头默克公司研发。现在,他的新职务是生物技术公司Biogen 的IT研发副总裁,目前,他一些数据科学家编入团队。这只团队通过大数据分析处理保障Biogen 公司的研发。

  在他离开非营利组织Broad生物研究所前,我们的编辑采访到Leach。他介绍了CIO在大数据方面所面临的困境,以及处理大数据所需要的技术和能力。Leach表示,企业大数据分析的投资已经由最初的200万美元上升到400万美元,很少专家愿意使用开源工具工作。而最不被重视的数据科学家往往能为企业找到真正有用的数据。

  问:你曾经作为CIO们的咨询顾问,在企业建设大数据基础设施时提供建议,你通常都会有哪些建议?

  Leach:最开始的阶段是要确认企业的大数据项目计划是什么。做这个项目的最大需求是什么,这是开始阶段最重要的问题,绝不是考虑什么技术或者需要采购什么项目。

  问:在Broad研究所的时候,他们做大数据项目最大的需求是什么?

  Leach:当时最大的需求是解决内部数据的产生、消化以及存储问题。那个时候在公共机构,比如Broad和私人机构之间是有一个竞争的,看谁能做出人类基因图。因为有这样的外部驱动力,所以,我们考虑的都是如何把项目做的更快一些。我们当时要么慢下来,要么放弃这个工程,要么寻找到更快项目实施方法。

  这对我来说,无疑是个挑战,尤其我对生物技术至今都了解不多。他们将一些实验外包出去,并将生成的数据传输过来,突然间,他们就会有数以万亿字节的数据需要传输,他们会有这样的疑问:“我该往那种硬盘里存放数据?我如何获取这些数据?我计算这些数据时要放置在哪里?我又该如何去计算呢?” 我在一群生命科学家那里看到的是他们对数据处理有非常强烈的需求,他们的第一个问题是:“我如何处理这些数据?又该放在哪里?”

  问:那他们存放在哪里?

  Leach: 很多公司会放置在公司内部。但有些公司会放在云端,但这些数据量很小也不会常用。生命科学领域的数据通常包括遗传学与基因组学资料、药物信息或者病人记录,如果存放在防火墙之外会有很多忧虑。

  所以,当你确定为什么需要数据后,下一个工作就是考虑如何存放他们。再下一个就是如何利用计算机处理数据。那是需要在内部计算机内存储处理呢,还是放置在云端,比如亚马逊上,需要时再拿回来处理?这就涉及到大家的另一个猜想,为什么数据需要首先在内部处理呢?

  问:获取数据简单吗?

  Leach:真正的获取过程并不简单。考虑到传输速度,有些公司会从云端传输。有些则使用硬盘传输。这里面涉及到很多问题,比如,你从波士顿获取数据,但你的数据中心在北卡罗来纳州,我需要解决的问题是,我该如何将几百亿字节的数据通过公司网络传到服务器上,为此我还要做哪些工作?

  问:公司如何处理数据的获取?

  Leach:有些情况下,研究基于硬盘上的一堆数据,企业就会消极对待传往服务器上的数据。有些情况,企业试图在内部网络中使用数据,进而影响内部网络,因为他们会将数据转移到典型的企业数据网络而不是数据中心。另外一些则是和IT部门紧密合作。

  这部分取决于企业其他部门如何与 IT部门合作。我认为网络限速器是为了让其他部门更好地与IT部门合作,也是为了保证IT部门的足够灵活性。这类的项目并不是传统意义上标准的IT基础设施。尝试在Oracle数据库上研发大数据,Oracle会建议你购买一些外部硬件,但你需要数据库专家,这些专家不仅懂得常规数据库关系,也要了解NoSQL、CouchDB、 MongoDB等等。

  接下来就是如何找到一群高素质的人才,他们可熟练运用现在的开源技术产品,比如Hadoop、OpenStack之类。人才对于团队来说至关重要,我常常听到同行们的抱怨:“我该去哪里找到真正的千里马?”

  问:CIO们会去哪些领域寻找人才?

  问:我从eBay的CTO那里了解到,一个重要的领域就是经济学家。经济学家喜欢在数据中寻找金矿,他们也喜欢用数据去解决深层次问题。有一群突然意识到大数据的经济学家会说:哇,我们从来没有处理过这种水平的数据。

  问:所以,你只能找那些喜欢数据挖掘避过愿意使用开源工具的人?

  Leach:我曾经看到一群物理学家在大数据领域工作。Hadron Collider里的工作人员每天需要沉浸在在机器产生的PBS数量级的数据中。经济学家、物理学家以及喜欢衍生工具的人,都是典型的数据分析师:他们喜欢数据。我将去经济学家领域找到合适的人才,因为我之前不太重视他们。

  问:一些公司对大数据最大的误解是什么?

  Leach:我认为很多公司都不会意识到他们如何在一开始就小心翼翼的对待数据。你在数据管理、注解、组织方面花的时间少了,就会影响你如何使用数据。我们从一份统计里看到,当我们的项目完成五个月后,就没有人再去关注数据里。你两年来的数据怎么处理?删掉他?还是重新组织?鉴于目前数据存储成本下降,我们可以存储这些数据。

  问:这或许就是你谈到的,当人们开始面对大数据时,往往会变得很短视?

  Leach:不仅是IT部门的短视,连数据搜集者也是这样。IT部门负责数据搜集,从IT的角度来看,IT部门是不会考虑长远的,但搜集者也是仅仅关注当下的数据,或关注他们搜集到的数据。

  问:为了实现大数据的目标,你需要收集足够多的数据,你手机的越多,做出的预测也越精准,可以这样理解吗?

  Leach:是的,如果你真的能把握的话,大数据仅仅“大”而已。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者>更多

Linda Tucci
Linda Tucci

Linda Tucci是SearchCIO.com的执行编辑,负责新闻和电子杂志项目。自2005年加入TechTarget以来一直致力于CIO战略,最近关注大数据、移动计算和社交媒体。 她还经常为SearchCIO.com的CIO Matters专栏撰写CIO角色和CIO职业相关内容。

云计算>更多

相关推荐

  • 发现改变的力量 远洋集团新技术引领大会直击科技发展浪潮

    “发现改变的力量”远洋集团新技术引领大会如期召开,大会围绕“大智云物移”(大数据、智能化、云计算、物联网、移动互联网)等方面,主要介绍了新技术在房地产领域及人们日常生活中的相关应用

  • 让技术为健康保驾护航 远洋健康建筑落地生花

    云计算、大数据等技术的发展,为我们展开了未来健康与智慧建筑的画卷。依托WELL标准与智能化等新技术,远洋已经实现40项技术应用场景。

  • 数字驱动的精准医疗:BT+IT能否克服挑战?

    数据已经成为精准医疗行业发展的“原力”,但是,准确、海量的数据是精准医疗的重要实现条件,那么如何更有效地汇集、存储、管理和分析数据?如何让数据分析、云计算为主导的IT技术正与生物技术有机融合,从而实现对海量数据的提取和分析等,推动精准医疗的创新和落地?

  • 物联网时代 企业需要什么样的人才?

    根据Gartner的研究,事实上,希望从IoT中寻求效益的企业大多数面连着人才不足和专业知识缺乏的障碍。根据调查,企业在推动成功的物联网战略时,需要以下这些技能和相关人才:机器学习、AutoCAD等等。

技术手册>更多

  • 揭秘云计算(升级版)

    时下,云计算是IT行业的一个热点话题。作为一项有望大幅降低成本的新兴技术,云计算正日益受到众多公司的追捧。它不是革命性的新发展,而是数据管理技术不断演进的结果。云计算的蓝图已呼之欲出:在未来,只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。从这个角度而言,最终用户是云计算的真正拥有者。

  • 数据中心和桌面虚拟化指南

    除了一般的数据中心和虚拟化趋势,本专题提供了扩展桌面、硬件和软件虚拟化的概念,提供了部署虚拟化的最佳实践、成本分析和网络考虑。

  • CIO手册:企业风险管理解决方案

    在本技术手册中,将会介绍企业和企业CIO如何全面地执行企业风险管理,包括恰当的风险管理方法、数据保护方案、网络访问控制、云计算安全和法规风险管理。其中的新闻趋势、案例分析等等资源都与企业风险管理方案密切相关,可以帮助你综合企业的各种因素做出明智的决定。

  • 项目管理成败经验总结手册

    作为CIO,你有责任设定项目愿景和预期。你的项目经理们应该定义好各种里程碑,然后需要的时间征求相关人员的意见。本技术手册着重分析了项目管理失败和成功的经验,并就对敏捷和云计算对项目管理的影响作了介绍。作为CIO,你有责任设定项目愿景和预期。你的项目经理们应该定义好各种里程碑,然后需要的时间征求相关人员的意见。本技术手册着重分析了项目管理失败和成功的经验,并就对敏捷和云计算对项目管理的影响作了介绍。

TechTarget

最新资源
  • 安全
  • 存储
  • 数据库
  • 虚拟化
  • 网络
  • 数据中心