您的位置: 网界网 > 行云之路 > 正文

DOT模型助力大数据分析软件开发

2011年12月10日 17:00:29 | 作者:唐蓉 | 来源:it168网站 | 查看本文手机版

摘要:2011年12月2日、3日,Hadoop in China 2011在北京会议中心成功举办。本次大会以“海量数据掘宝”为主题,吸引了来自世界各地的一千余名关注Hadoop的专家、开发者和使用者。

标签
专访
大数据
DOT模型

2011年12月2日、3日,Hadoop in China 2011在北京会议中心成功举办。本次大会以“海量数据掘宝”为主题,吸引了来自世界各地的一千余名关注Hadoop的专家、开发者和使用者本次大会上,美国俄亥俄州立大学计算机科学与工程系系主任张晓东老师介绍了用于开发大数据[注]分析软件的DOT开发模型,IT168记者就此进行采访。

DOT模型助力大数据分析软件开发

▲点击查看采访视频

在采访中,张晓东表示,计算机发展历史上,在每一个阶段都有一个模型的指导,在最早的时候,做硬件开发的时候有冯诺依曼的计算机模型,在做并行计算的时候有BSP模型,当大数据来临的时候,并没有模型的指导,是否能够找到一个统一的、普遍的,能够代表很普遍意义的这样一个软件的开发模型,来指导大数据分析软件的开发,DOT模型就是在这样的背景下诞生的。

主持人:各位网友下午好,欢迎收看IT168视频访谈,现在我们来到了Hadoop云计算[注]大会的大会现场,今天我们荣幸地邀请到了美国俄亥俄州立大学计算机科学与工程系系主任张晓东张老师,张老师您好,跟我们网友打个招呼吧!

主持人:首先请张老师简单介绍一下自己。

嘉宾:我叫张晓东,出国时间已经挺长了,但是我讲中国话比讲英文好得多,特别喜欢讲中国话,我1983年出国,在北京工业大学毕业之后。

主持人:张老师这次参加大会感受怎么样?

嘉宾:我非常高兴,也非常兴奋,能够看到有这么多软件工程师和研究者参与这个Hadoop的这种开发。

主持人:张老师最近研究工作就主要集中在哪些方面,能简单的介绍一下吗?

嘉宾:我的工作这么多年来,一直这个围绕在数据处理,在计算机硬件、软件,包括系统,各方面的,都是跟数据有关的,所以当大数据来的时候,那自然的,我的研究就联系到了大数据的处理。

主持人:张老师今天大会主题演讲的时候,演讲的主题是关于DOT,一个开发处理大数据软件的分析模型,能不能简单的介绍一下这个DOT的这个分析模型呢?

嘉宾:好,我们看计算机发展历史上,在每一个阶段都有一个模型的指导,在最早的时候,做硬件开发的时候,有一个冯诺依曼的计算机模型,在做并行计算的时候,我们用BSP,就是VLINT的BSP模型,当大数据来临的时候,出现了很多很多的软件,这个开发,但是并没有这种模型的指导,所以我们的工作就想能不能找到一个统一的、普遍的,能够代表很普遍意义的这样一个软件的开发模型,来指导这种软件的开发。

主持人:那如果开发者就是想用这个模型做一些大数据软件的开发的话,他应该怎么去做呢,能说一下吗?

嘉宾:我们这个模型主要是给予指导意义的,就是如果他在设计这个软件的时候,在不去做软件写程序之前就可以把他的框架通过我们的模型表现出来。表现出来之后,这样的话就可以去来看看这个模型的基本的一些性能怎么样,比如说它是不是可伸展性,它是不是可以有冗余的这个能力,都可以通过我们这一套模型,可以表现出来,这样就大大减少了计算机软件开发的时间和费用。

主持人:用这个软件DOT分析模型如果去指导大数据软件开发的话,开发出来的软件,如果不使用的话,这个分析模型会有什么样的优势?

嘉宾:有几个优势,第一个开发费用肯定降低的,这样你在去设计的时候,很多的想法可能是错误的模型可以帮你分辨出来。第二就是说通过这个模型,可以找出优化的一些机会和优化的一些条件,这样就可以加快软件开发的这个速度,那么第三点呢,就是说我们可以通过这个模型来将不同的软件之间可以做一个比较,而这种比较是有比较科学的依据的一种比较。

主持人:张老师刚才讲到咱们现在现有的大数据软件在这块,还有一些存在一些问题,你能不能说一下这些问题,主要包括哪些方面?

嘉宾:我觉得现在的,我们开发这个软件,这个模型的主要目的,其实也是一种我们想做这件事情的一个动机是什么呢,我们其实参与了很多软件的开发过去,包括大数据的,但是发现有很多问题不能够去回答,比如说到底这个软件它是不是可以有伸展性,到底这个软件是不是它有容错性,这些问题都是好像在摸着石头过河一样,那么能不能有这样一个模型,更有科学依据的来给予指导,所以这是我们做这个事情的初衷,现在看来初衷第一步的目的还是达到了。

主持人:在做这件事情的过程当中,咱们是不是也遇到过一些挑战或者说困难?

嘉宾:我觉得做这个工作还是一个多学科的工作,因为我们团队里头还有数学家,所以有做数学的,同时我们一定有非常丰富的软件开发的经验,因为这不是一个纸上谈兵的事情,虽然我们研究的问题看起来很哲学的一个问题,需要有很强的数学功底,同时它的问题是来源于实际的。

主持人:最后我们是一个怎么样的一个团队去完成了这样一个任务呢,是如何去完成的呢?

嘉宾:我们对团队是有两个学校,一个康乃尔大学和我们俄亥俄州立大学,我们有数学教授在俄亥俄州立大学。同时还有一个博士生,一个本科生,还有一位博士后研究人员,包括我(+本站微信networkworldweixin),再加上我。

主持人:那么现在这个软件已经开始,就是有用户在使用,还是说这个软件现在只是处于开发期?

嘉宾:它不是一个软件,是一个模型,一个数学模型,这个模型现在有人在用,因为这个模型我们是放在网上大家都可以用,而且我们用这个模型来比较了微软的软件和这个雅虎、Hadoop,我们通过这个模型来做,把它的软件互相之间的性质做了分析,所以我们自己用过,我们也发现有各个学校不同的学者也开始来用。

主持人:那这个最后分析出来的结果可以方便说一下吗?

嘉宾:分析的结果就是说雅虎开发的Hadoop和微软开发的DriverAD它们的本质是一样的,它们两个软件的性能都是可扩展和有冗余性的,这是我们的结果,但是没有第三方模型的判断,每个软件公司自己都可以说我的软件怎么怎么样,但是我们做了一个比较公正的判断。

主持人:这个模型现在使用的人数多吗?

嘉宾:因为我们十月份刚刚发表,我相信以后会有很多人来用这个模型,因为做大数据的分析,这是一个唯一的模型。

主持人:张老师对大数据分析这块,能不能请您讲一下对大数据软件分析这一块的未来发展趋势?

嘉宾:大数据分析,因为数据量非常大,有很多软件模式要发生变化,包括优化等等都要发生变化,我估计在今后的五年到十年里有很多工作要做,有很多研究的工作要做。

主持人:能举个例子吗?

嘉宾:比如我们在做系统分析的时候,做数据库分析的时候,都跟以前非常不一样,现有的数据库是不能承载这些大数据的,所以我们必须用现有的分布式系统,怎么样来造这个数据库,这是一个新的挑战,一个新的工作,过去的并行数据库是不做这样的事情的。

主持人:张老师作为一个在国外长期工作的工作人员,然后您今天回到中国,对于中国的这些开发者来说,然后您对于中国的这些开发者和国外的这些开发者,您能不能提出一些您个人的一些建议,对于国内的这些开发者呢?

嘉宾:我非常高兴看到这么多软件开发工作人员来参加这个会,因为计算机软件的开发与其它行业是不太一样的,因为我们开源软件是起到一个非常重要的作用,开源软件大部分来自于美国现在,我希望有更多中国的软件开发人员、研究人员把他们的算法,把他们开发的软件能够用在这种主流的软件当中,所以使整个世界范围内的用户都可以获利,能够提高它们的性能,能够作出贡献,这样的话,我觉得中国的软件、中国的学者就会得到国际界更高的尊重。

主持人:张老师谢谢。

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

2.云计算:(Cloud Computing)描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。云计算是继1980年代大型计算机到...详情>>

[责任编辑:行云之路 yu_xiang@cnw.com.cn]