大数据“老兵”畅谈大数据基础设施建设

日期:2013-1-28作者:Linda Tucci 翻译:赵赛坡来源:TechTarget中国 英文

大数据   CIO   数据库   数据中心   

【TechTarget中国原创】

Martin Leach在大数据工作方面非常忙碌。他曾作为MIT和哈佛大学联合开办的Broad研究所的CIO,在那里,他要负责13PB数据的存储,使用超级计算机进行计算。他和他的团队为人类基因图绘制工作做出了卓越贡献。

  在研究所之前,他团队所支持的研究小组为医药巨头默克公司研发。现在,他的新职务是生物技术公司Biogen 的IT研发副总裁,目前,他一些数据科学家编入团队。这只团队通过大数据分析处理保障Biogen 公司的研发。

  在他离开非营利组织Broad生物研究所前,我们的编辑采访到Leach。他介绍了CIO在大数据方面所面临的困境,以及处理大数据所需要的技术和能力。Leach表示,企业大数据分析的投资已经由最初的200万美元上升到400万美元,很少专家愿意使用开源工具工作。而最不被重视的数据科学家往往能为企业找到真正有用的数据。

  问:你曾经作为CIO们的咨询顾问,在企业建设大数据基础设施时提供建议,你通常都会有哪些建议?

  Leach:最开始的阶段是要确认企业的大数据项目计划是什么。做这个项目的最大需求是什么,这是开始阶段最重要的问题,绝不是考虑什么技术或者需要采购什么项目。

  问:在Broad研究所的时候,他们做大数据项目最大的需求是什么?

  Leach:当时最大的需求是解决内部数据的产生、消化以及存储问题。那个时候在公共机构,比如Broad和私人机构之间是有一个竞争的,看谁能做出人类基因图。因为有这样的外部驱动力,所以,我们考虑的都是如何把项目做的更快一些。我们当时要么慢下来,要么放弃这个工程,要么寻找到更快项目实施方法。

  这对我来说,无疑是个挑战,尤其我对生物技术至今都了解不多。他们将一些实验外包出去,并将生成的数据传输过来,突然间,他们就会有数以万亿字节的数据需要传输,他们会有这样的疑问:“我该往那种硬盘里存放数据?我如何获取这些数据?我计算这些数据时要放置在哪里?我又该如何去计算呢?” 我在一群生命科学家那里看到的是他们对数据处理有非常强烈的需求,他们的第一个问题是:“我如何处理这些数据?又该放在哪里?”

  问:那他们存放在哪里?

  Leach: 很多公司会放置在公司内部。但有些公司会放在云端,但这些数据量很小也不会常用。生命科学领域的数据通常包括遗传学与基因组学资料、药物信息或者病人记录,如果存放在防火墙之外会有很多忧虑。

  所以,当你确定为什么需要数据后,下一个工作就是考虑如何存放他们。再下一个就是如何利用计算机处理数据。那是需要在内部计算机内存储处理呢,还是放置在云端,比如亚马逊上,需要时再拿回来处理?这就涉及到大家的另一个猜想,为什么数据需要首先在内部处理呢?

  问:获取数据简单吗?

  Leach:真正的获取过程并不简单。考虑到传输速度,有些公司会从云端传输。有些则使用硬盘传输。这里面涉及到很多问题,比如,你从波士顿获取数据,但你的数据中心在北卡罗来纳州,我需要解决的问题是,我该如何将几百亿字节的数据通过公司网络传到服务器上,为此我还要做哪些工作?

  问:公司如何处理数据的获取?

  Leach:有些情况下,研究基于硬盘上的一堆数据,企业就会消极对待传往服务器上的数据。有些情况,企业试图在内部网络中使用数据,进而影响内部网络,因为他们会将数据转移到典型的企业数据网络而不是数据中心。另外一些则是和IT部门紧密合作。

  这部分取决于企业其他部门如何与 IT部门合作。我认为网络限速器是为了让其他部门更好地与IT部门合作,也是为了保证IT部门的足够灵活性。这类的项目并不是传统意义上标准的IT基础设施。尝试在Oracle数据库上研发大数据,Oracle会建议你购买一些外部硬件,但你需要数据库专家,这些专家不仅懂得常规数据库关系,也要了解NoSQL、CouchDB、 MongoDB等等。

  接下来就是如何找到一群高素质的人才,他们可熟练运用现在的开源技术产品,比如Hadoop、OpenStack之类。人才对于团队来说至关重要,我常常听到同行们的抱怨:“我该去哪里找到真正的千里马?”

  问:CIO们会去哪些领域寻找人才?

  问:我从eBay的CTO那里了解到,一个重要的领域就是经济学家。经济学家喜欢在数据中寻找金矿,他们也喜欢用数据去解决深层次问题。有一群突然意识到大数据的经济学家会说:哇,我们从来没有处理过这种水平的数据。

  问:所以,你只能找那些喜欢数据挖掘避过愿意使用开源工具的人?

  Leach:我曾经看到一群物理学家在大数据领域工作。Hadron Collider里的工作人员每天需要沉浸在在机器产生的PBS数量级的数据中。经济学家、物理学家以及喜欢衍生工具的人,都是典型的数据分析师:他们喜欢数据。我将去经济学家领域找到合适的人才,因为我之前不太重视他们。

  问:一些公司对大数据最大的误解是什么?

  Leach:我认为很多公司都不会意识到他们如何在一开始就小心翼翼的对待数据。你在数据管理、注解、组织方面花的时间少了,就会影响你如何使用数据。我们从一份统计里看到,当我们的项目完成五个月后,就没有人再去关注数据里。你两年来的数据怎么处理?删掉他?还是重新组织?鉴于目前数据存储成本下降,我们可以存储这些数据。

  问:这或许就是你谈到的,当人们开始面对大数据时,往往会变得很短视?

  Leach:不仅是IT部门的短视,连数据搜集者也是这样。IT部门负责数据搜集,从IT的角度来看,IT部门是不会考虑长远的,但搜集者也是仅仅关注当下的数据,或关注他们搜集到的数据。

  问:为了实现大数据的目标,你需要收集足够多的数据,你手机的越多,做出的预测也越精准,可以这样理解吗?

  Leach:是的,如果你真的能把握的话,大数据仅仅“大”而已。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Linda Tucci
Linda Tucci

Linda Tucci是SearchCIO.com的执行编辑,负责新闻和电子杂志项目。自2005年加入TechTarget以来一直致力于CIO战略,最近关注大数据、移动计算和社交媒体。 她还经常为SearchCIO.com的CIO Matters专栏撰写CIO角色和CIO职业相关内容。

云计算>更多

相关推荐

  • 物联网时代 企业需要什么样的人才?

    根据Gartner的研究,事实上,希望从IoT中寻求效益的企业大多数面连着人才不足和专业知识缺乏的障碍。根据调查,企业在推动成功的物联网战略时,需要以下这些技能和相关人才:机器学习、AutoCAD等等。

  • 云计算的下半场:从颠覆到传统 数据中心迎挑战

    何宝宏博士表示,未来十年,云计算将从一个颠覆性产业逐渐转换为传统行业,与此同时,边缘计算等‘衍生品’正在兴起。云计算正在把整个行业和整个系统的复杂性,从用户手里的终端迁移到云端和数据中心。

  • 大数据:释放应用价值,数据融合先行

    多源、实时和海量,是大部分大数据应用中的普遍性要求,特别是在智慧城市等具有跨行业、跨系统、跨职能整合需要的信息化项目中,科学高效的数据融合方案至关重要。

  • CIO无法忽视的三大云角色

    Gartner:为了充分实现云的利益,CIO需要填补三个云角色——一个是形成战略,一个是实施战略,一个是预算。

技术手册>更多

  • 高效IT创新策略的四个标准

    IT创新策略是根据行业领域、客户需求 和业务目标确立和制定的,所以每个公司的创新策略都不同。但是,对CIO们的采访证明创新的IT组织都有某些共同的特征。在本技术手册中,IT高管们列出了IT创新策略背后的驱动因素,谈到了如何制定高效而可持续的方法进行不断IT创新,探究了IT高管移除障碍促进IT创新的方法,涉及到了在需要解决短期和长期挑战的情况下,IT创新策略如何引入并蓬勃发展, 还体现了IT创新在创造业务价值和领导业务转型中的作用。

  • CIO指南:企业业务服务管理

    企业业务服务可以吸引和保留新客户,从而为企业创造新价值。他们还可以让内部的IT流程更加顺畅,改善企业的投资回报率(ROI)。无论如何,开始一个项目并持续下去并不是那么简单的:它需要CIO和其他的IT高管执行强大的IT业务服务管理。你知道怎么开发新的企业业务服务、重新规划现有项目增加业务价值,并用新理念实现成功吗?本技术手册将涉及这些问题。

  • 专注流程改善的ITSM和ITIL最佳实践

    本技术手册将会介绍ITSM和ITIL最佳实践。IT基础设施库(ITIL)是一系列流程和标准,可以帮助企业执行高效的IT服务管理(ITSM)。企业采用ITSM和ITIL最佳实践可以完成业务流程改善、削减成本并提高效率。为了更加高效,很多企业都把ITSM和ITIL流程与其他方法结合,例如敏捷IT、六西格玛、ISO20000以及项目组合管理(PPM)。

  • 企业数据中心管理指南

    企业CIO都在和大量数据中心的问题作斗争。最好的是维护自己的数据中心吗?要不要考虑数据中心整合?还是转向云计算更灵活地满足需求?这些决策都不容易,而且在今天的形势下,在CIO制定长期的企业数据中心策略的时候,留给他们犯错误的空间也很小。在本技术手册中,将介绍在整合数据中心、选择公有云和私有云、自建和租用数据中心的ROI分析,以及最终创建下一代数据中心的时候,IT高管应该如何衡量自己的选择。

TechTarget

最新资源
  • 安全
  • 数据库
  • 虚拟化
  • 数据中心
  • 云计算
  • 商务智能