云计算 频道

追赶Big Table!专家解读HBase未来走向

  【IT168 专稿】2011年12月2日、3日,Hadoop in China 2011在北京会议中心成功举办。本次大会以“海量数据掘宝”为主题,吸引了来自世界各地的一千余名关注Hadoop的专家、开发者和使用者。【点击查看IT168视频直播专题

  HBase(访问Apache HBase社区:http://hbase.apache.org/)是 Hadoop 数据库,它是一个分布式的、可扩展的大数据存储,然而相对于分布式存储的鼻祖Google的Big Table来说,HBase还是要落后了好几年,那么,未来HBase究竟走向何方?本次大会,IT168记者采访到了来自eBay的HBase专家,也是中国知名个HBase Committer于志宏。他在采访中介绍了HBase在eBay的应用,以及成为一个HBase Committer所需要具备的条件,同时他还对HBase未来的发展做出了独特的见解。

中国首个HBase Commiter谈HBase发展
点击查看采访视频

  主持人:能简单介绍一下明天演讲的主要内容吗?

  嘉宾:明天我主要演讲的主要是关于HBase,HBase作为非关系型的数据存储的应用还是比较广泛的,HBase0.92刚推出,我作为HBase Committer,明天会讲一些0.92里面新的功能,0.94以及未来的也会讲一些。

  主持人:你在Ebay从事HBase方面的开发工作,相信很多的网友也很关心这一块,你现在的Ebay HBase的团队做哪些方面的工作,然后就是这个工作对于未来在于对于Ebay来说有什么样的应用,未来发展的前景怎么样,能简单介绍一吗?

  嘉宾:Ebay的Search Team,Ebay运行的话,有不同的A bid,一个物品放上去之后,有很多人去竞价,怎么找到别人的竞价,然后找到以后你才能有下一个,所以他们Search team用HBase作为后端,所有我的同事也会讲一下Search Team怎么使用HBase。我过去一年多专注于HBase方面,在HBase核心这一部分做的工作会多一些,那么HBase0.92它有一个新的功能,叫Co Processer,所以对于刚才我提到的Search team,怎么缩短查询时间会很有帮助。

  主持人:这个对于以后在Ebay里面哪些方面的应用会有帮助?

  嘉宾:讲具体一点的话是这样,现在他们Search team实现是基于HBase 0.90,没有Co processer,所以查询需要从Acquire到Serve需要两趟,如果Co processer,第一趟查到一些结果以后,再用中间结果直接在服务器端再进行一次查询,再把结果反馈到客户端,这样的话,就减少客户端和服务器端的往来,减少一次。

  主持人:我了解到你除了做HBase Ebay的开发方面,也是HBase社区的贡献者,我想问一下,您在HBase社区里面,你主要贡献哪些方面的内容?

  嘉宾:对,在明天我讲的里面会涉及到一些,在成为Committer以前,我写的代码比较多,邵铮提到HBase优势的时候讲到动态的对于Load,就是能够动态的调控,这方面Load balance我会做一些,明天会讲一下。成为Committer以后,中国人我是第一个,所以我有相当一部分责任就是怎么样把中国云计算,比如说HBase这方面的Contribution越来越多,怎么把中国的Contribution,比如说关于Table,怎么把中国来的Contribution为放在Apache上面,我很多时间放在这个上面,就是怎么沟通,像Doug Cutting来的时候,他讲很重要一点,他强调阿帕奇作为怎么样建起来这个社区,这个社区的话就是说不管是美国的公司也好,中国的公司也好,就是说开源式的软件都能放进去,然后才能共享,所以我在这方面,就是我觉得会起到一些比较,当然我希望下一步明年中国大陆出一个HBase Committer,这样的话就是说如何加快中国云计算对于阿帕奇社区的贡献。

  主持人:刚才您讲,您特别希望中国大陆能够出现更多HBase的Committer,对于这些想成为Committer开发人员来说,你有没有一些好的建议或者想说的?

  嘉宾:明天开会的时候我还会讲一下,我注意到刚才上午开会的时候,有一位先生他问用英文怎么表述自己,因为我最早出国的时候,我上过新东方的课,培训一下。HBase也好,Hadoop也好,中国的这些Contribution放在Apache的话,有很多因素,首先是编程质量,编程程序中有很多注释,注释一般用很多英语的,怎么样用英语很清晰的表示一个概念,那么Contribution,Table比较大一些,也有比较小的,小的也有很好的注释,我个人花一些时间,除了看程序以外,还要把注释英文译法给改的好一点。

  那么就是说从这一点上来讲,沟通,除了程序,程序什么人都可以看,但是如果你要让别人看得更明白的话,就是说这些注释什么的,还是要下一些工夫。

  主持人:就是说英语水平很重要。

  嘉宾:英语水平,对,因为一般来讲,从中国这边和美国这边,异地异步的,不是同时,比如中国白天写的,可能到那边要过比如说几个小时,那边才有反应,所以你用英语写下来的话,这些交流就是怎么解释,这个代码怎么运行的,关键问题在什么地方,等等,这都是需要通过英语来进行交流的。那么我是在这方面的话,因为我对中国出来的这些帖子或者发言反应会比较快一点,因为我早上很早都会检查Email,但是就是说别的人,就是让别的那个Hadoop Committer也看懂的话,希望这方面能够有所改进。

  主持人:那么这个就是说对于国外的开发者来说,是不是算是一个优势呢?

  嘉宾:对,所以我刚才跟刘佳讲,我在美国,因为我近期内还没有回国的打算,所以我在美国的话,能和别的这些,当然大多数白人了,因为我是第一个非白人的Committer,现在有一个中国人,三个印度人,其中一个印度人在华为印度,我觉得就是说交流这一点,因为我能够和他们面对面交流,比如说我回来前一天,还在和他们面对面谈,所以我成为Committer以后,我做的事情多一点的话,我也会把我的想法告诉他们。

  主持人:行,那最后还有一个问题,就是说你能不能谈一谈HBase这个前景,让大家都来看一看,让更多人都来关注这一块?

  嘉宾:因为上午Google有一个人他讲,我觉得Google还是领先于开源的有几年的,比如像HBase,因为0.92没有Co processer,0.92也是两天前才有第一个版本出来,HBase和Big Table还是有很大差距,当然,HBase加上Hive相当程度上也是达到Google正在做的这些。HBase再往下,我觉得还是有很多可以做的,比如说像这个Google工程师提到多行的Transaction,Transaction用HBase的程序员才会比较好的,程序才会表述的比较清楚,但是现在HBase只是在一行,一行上,实际上一行还有文章,因为有Modicle,也是最近才解决的。所以,因为Big table在那里,所以领先很多,HBase还有相当的发展。

0
相关文章