您的位置: 网界网 > 行云之路 > 正文

Yahoo!云计算首席科学家:DBMS依然有立足之地

2011年04月11日 17:07:00 | 作者:谭茂 | 来源:CSDN | 查看本文手机版

摘要:毫无疑问,云计算正在改变传统的数据库技术,下一代的分布式数据存储平台是什么?云计算对传统数据库的影响又何在呢?在日前举行的CSDN TUP Master活动中,来自Yahoo! 的云计算首席科学家Raghu Ramakrishnan就目前数据库市场的热...

标签
云计算
DBMS
立足之地
Yahoo

毫无疑问,云计算[注]正在改变传统的数据库技术,下一代的分布式数据存储平台是什么?云计算对传统数据库的影响又何在呢?在日前举行的CSDN[注] TUP Master活动中,来自Yahoo! 的云计算首席科学家Raghu Ramakrishnan就目前数据库市场的热点问题进行了一番解答。

云计算对传统数据库的影响:DBMS依然有立足之地

从目前来看,数据仓库DBMS技术正在发生一场因云计算技术而起的变革,数据仓库DBMS市场已经从支持传统的商业智能平台的信息存储,发展到支持业务分析、企业绩效管理,甚至支持如操作型BI(商业智能)或绩效管理的更广泛的分析架构。许多企业也因此将更多的负荷和数据载入从联机事务处理(OLTP)转移到数据仓库,数据装载也正转变成接近连续加载的模式。

对于DBMS的未来,Ramgu认为,“传统的DBMS在云计算环境中依然有立足之地”。

他表示,从本质上来说,云计算意味着你需要搭建一个多用户的系统,这些用户可能是开发者,也可能是使用者,他们都通过云来使用系统。他们可以在任何时间要求更多的空间(或是性能),而系统需要即时相应他们的需求。因此,需要建立这样的系统:它允许你动态的添加各种能力(空间,性能等),而且你的系统可以自动的把你添加的这些能力有效的分配到系统的用户身上。这样的系统需要很强的可用性,这意味着需要各种机制来处理这种大型分布式系统上面出现的异常。PNUTS就提供了很多这样的机制。

Ramgu用了Yahoo!的自身实践来具体分析了DBMS的未来。他表示,以Yahoo!的登录系统来看目前有多达6.4亿的用户,Yahoo!需要对这些用户的请求进行即时处理,这就需要云计算技术。而另一个实例是ADP(Associated Data Processing),他们正在为一些小公司提供数据服务。而ADP所做的工作就是管理成千上万个小规模数据库并维护使其正常运行,这些数据库可能在同一台机器上,也可能不是。这些数据库的用户需求其实很简单:事务,ACID,SQL操作等,最多也就是用MYSQL风格的异步数据访问程序。因此设计这样的云系统于Yahoo的登录系统截然不同。

“这样的系统需要在大型服务器场中运行成千上万个传统的关系型数据库,而且需要支持在服务器间以数据库为基本单位进行数据迁移。为了支持这些操作,可用性、多用户操作、灵活性都是必须的特性。”

此外,一些大型软件提供商也在试图把他们的产品"云化"(Cloudify),就拿微软的Azure为例,实际上它就是一个支持在云中进行简单数据库部署的SQL Server。

已经被EMC收购的Greenplum是数据仓库技术的另一个关注焦点,对于如何将Greenplum与Hadoop的结合,Ramgu谈了自己的看法。

Ramgu认为,Greenplum是一个OLAP(Online Analytical Processing)系统——一个传统的关系OLAP系统,当然它也开始支持实现MapReduce。一方面是因为MapReduce越来越流行,另外 一方面来自客户的要求。总的来说,Greenplum以一个带有OLAP能力的MapReduce实现。

简单的来说:Hadoop是一个专门的MapReduce实现,而Greenplum是一个实现了MapReduce,并带有一些传统OLAP能力的系统。

下一代分布式的数据存储平台——PNUTS

作为一个分布式的数据存储平台,PNUTS是Yahoo!云计算平台重要的一部分,对此Ramgu表示,PNUTS深谙CAP之道(+微信关注网络世界),考虑到大部分 web应用对一致性并不要求非常严格,在设计上放弃了对强一致性的追求,代替的是追求更高的availability,容错,更快速的响应调用请求等。

PNUTS的结构

“一些用于处理有很多更新,并需要运行很长时间的密集数据挖掘查询的工作,实际上并不适合PNUTS”,Ramgu表示,“这样的需求会在 Hadoop上执行分析操作,Hadoop里的数据可以很容易的迁移到Sherpa上,反之亦然,因此用户可以利用Hadoop提供的强大的计算能力对数 据进行分析”,“PNUTS主要提供单条数据上的查询,删除,以及修改操作,当然性能也很重要,但是在实际中,稳定的可用性要比性能更重要。”

参考资料

1.云计算:(Cloud Computing)描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。云计算是继1980年代大型计算机到...详情>>

2.SDN:(Software Defined Network,软件定义网络)是一种新型的开放网络创新架构。最初是由美国斯坦福大学研究组提出,OpenFlow通过将网络设备控制面与数据面分离开来,从而实现...详情>>

[责任编辑:软件 yu_xiang@cnw.com.cn]