您的位置: 网界网 > 行云之路 > 正文

据改写未来!专访雅虎研发中心韩轶平

2011年11月18日 16:05:58 | 作者:厂商投稿 | 来源:it168网站 | 查看本文手机版

摘要:“雅虎有90%以上的价值由数据驱动”——雅虎北京研发中心高级经理韩轶平。

标签
专访
雅虎
韩轶平

雅虎有90%以上的价值由数据驱动”——雅虎北京研发中心高级经理韩轶平

谈到数据的时候,韩轶平颇显激动,他告诉记者,在雅虎内部,数据的概念已经深入人心。我们的工程师不是软件工程师,而是数据工程师;我们几乎所有的产品都是以数据驱动的;雅虎90%以上的价值由数据驱动。

90%以上的价值由数据驱动?这样的数字足以让某些仍然无视数据存在的企业感到一阵恐慌。为进一步了解雅虎究竟是如何利用数据创造价值,雅虎的“数据平台化”进展,以及企业应该如何利用Hadoop实现数据价值的挖掘,IT168记者采访了雅虎北京高级研发经理、第五届Hadoop中国云计算[注]大会(http://Hadoop.it168.com)的程序委员会联合主席韩轶平。

一、 Hadoop现状“方兴未艾”前景更深更广

对于Hadoop的前景,业界的看法不尽相同,而在韩轶平看来,就是八个字——方兴未艾、更广更深。

IT168:你如何看待Hadoop的发展现状以及未来的应用前景?

韩轶平:Hadoop现状可以用一个很恰当的词去形容,那就是“方兴未艾”。

从我们最早在中国做Hadoop沙龙到今年第五届Hadoop in China这个会,也差不多是四年多将近五年的时间了。08年的沙龙,只是一些爱好者或者说感兴趣的人来参加,到09年第一次办大会的时候,唱主角的基本上就是雅虎、Facebook这几个美国的大公司。国内当然也有百度、中国移动这样开始做这些工作。那么到去年很多公司已经出现了,名字基本上报不过来了,基本上中国的互联网公司,比较大的公司都已经在用了,甚至包括其他行业的公司小公司。从今年报名的情况来看,今年将会有更多的公司加入进来。

我们也看到,就是说最早期的时候,很多公司只是来了解一下情况,了解一下什么是Hadoop,大概干吗的。到之后慢慢的越来越多的公司是过来,就是了解具体到底我该怎么用,到底怎么样,我可以开始使用Hadoop,我可以参与。到现在更多是,通过使用以后,越来越多公司的人提出大家的一些想法,在使用中遇到的问题和经验,然后要求怎么样去改进Hadoop。

所以,我为什么说方兴未艾呢?尽管这几年下来,Hadoop已经有了很大的发展,但是可以说,未来的市场会更大,有更多的公司将会参与进来,已经在使用的公司也需要有更多更深入的使用。

Hadoop的应用前景可以分成几个方向:第一个方向是从横向来看,我们会有更多的应用,越来越多的应用,例如雅虎已经从最开始的搜索使用Hadoop,发展到现在雅虎大部分产品都在使用Hadoop。

从纵向的来讲,一方面,未来除了互联网企业之外,会有更多的行业进入到。在美国现在已经有很多银行已经使用Hadoop。在中国我也听到有很多银行业、电力行业、通信行业等数据密集型的企业,他们也开始了解使用Hadoop,我想这是一个方向;另一方面,Hadoop的应用也会变得越来越深入。从最开始大家做一些简单的实验、离线数据处理,慢慢变成大规模的数据处理、线上产品的数据分析等。

IT168:现在很多商业的公司都加入到Hadoop的圈子,有一些公司推出商业的版本,这是否意味着Hadoop的发展进入了一个新的阶段?是不是已经从学术届开始走入商业圈?这对开源社区的发展是否会有一定的影响呢?

韩轶平:首先,Hadoop从来就不仅仅是一个学术性的东西。Hadoop的起源就是作为一个商业应用开始的,最早Doug开始做Hadoop,很快就加入了雅虎,Hadoop的最初开发工作,就是围绕着一个很重要的商业应用——雅虎的网页搜索而进行的,然后慢慢的有其他公司的实际应用进入,它从来不是一个研究性的项目,一直就是一个很商业化的,很实用性的一个项目。

一些公司从2009年甚至更早就开始做一些商业化的版本,更多的是做一些,比如说辅助工具、包装、解决方案、培训知识等等这些东西。这些东西起对于帮助Hadoop的普及起到了很大的效果,因为最初Hadoop的应用需要很多时间对Hadoop的相关知识进行学习,甚至需要很多对系统、分布计算等很多知识知识才能够做它的开发和部署。

这些商业版本的出现使得Hadoop的应用大大简化,这使得很多没有很强技术背景的公司有能力去应用。更重要的是,在他们出现问题的时候,尤其是一些相对比较简单的问题,会有人直接给他们提供一些支持,这一点特别重要。这些商业版本可以说是让Hadoop从一个技术变成了一个商品。

这对于对社区发展来还是具有很正面的作用,因为有更多的用户,就能意味着这个东西有更多的发展的机会,也能得到更多的反馈。

另一方面,有专门的人去做或支持Hadoop,使得它本身推广中的一些问题,都能得到更好地解决,比如推广过程中没有人回答问题、没有足够的文档等。

二、 企业用户的共鸣和诉求——“海量数据掘宝”

第五届Hadoop中国云计算大会将会议的主题定为“海量数据掘宝”,最重要的原因是因为Big Data已经成为许多企业关注的重点。韩轶平表示,如何从数据中挖掘价值是一个挑战,这次会议将让参会者直面Haodop创始人——Doug Cutting,见到更多的应用的实例,同时与对Hadoop有深入研究的专家进行交流。

IT168:作为第五届Hadoop中国云计算大会的程序委员会联合主席,您如何理解本次大会的主题——“海量数据掘宝”?

韩轶平:这个想法是我提的, 题目是查理查老师组织的。为什么提大数据[注]呢?我觉有两点:

第一,大数据是今年或最近一段时间业界比较热的一个话题。从我自己的观察,在中国,我们确实进入了大数据的时代。我们的这几个互联网公司手中积累的数据规模在不断的扩大,而且规模都已经达到了一定的水平,比如说百度、阿里、淘宝等都手上有很多很多数据。

第二,大家都已经意识到了从数据中挖掘价值的重要性,有了数据以后如何从数据中去挖掘价值,这个是很多企业都要解决的问题和强烈的需求。

“如何从数据中挖掘价值”是一个挑战,也是很多企业都想做的事情,所以基于此,我们今年就以Big Data为主题,并且把它具体的分成了几个方向,比如说NoSQL等。

采访人:对参会者而言,您觉得本次大会有哪些值得期待的地方?

被采访人:我们把Hadoop创始人DougCutting请来了,这是大会历史上的第一次,我们真的请到那个创始人过来。这也证明了一点,事实上这个事情是双向的,因为我跟Doug一提这个事情,他就反而变得很积极了,给他提完了以后,后面的事情都是他在主动提。

另一方面我觉得值得期待的地方,我们会看到很多Hadoop应用的实例,也会看到很多我们对Hadoop的改进,也会见到很多在这方面有相当深的研究经验的专家,大家可以做一些近距离的交流,这是特别值得期待的。

三、90%以上的价值来源于数据——雅虎的“数据平台化”革命

谈到数据的时候,韩轶平颇显激动,他告诉记者,在雅虎内部,数据的概念已经深入人心。我们的工程师不仅是软件工程师,而是数据工程师;我们大部分的产品都是以数据驱动的;雅虎90%以上的价值由数据驱动。

12

参考资料

1.云计算:(Cloud Computing)描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。云计算是继1980年代大型计算机到...详情>>

2.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

[责任编辑:行云之路 yu_xiang@cnw.com.cn]