记者:您能先简单的跟我们介绍一下您这个部门在百度中是一个什么样的角色吗?
吕:我们百度这个数据团队是基础架构部的一部分,那这个部门就是完全是做数据的。其实百度对数据的重视在业界里面是很突出的,因为百度一直让数据说话,它的各种决策,方方面面已经做了很久了,那我这个团队成立的最主要的工作是从技术的层面和数据的应用提到一个档次。这里的数据量很大,遇到不少难题业界都很清楚,不要很多的数据挖掘。甚至有时候会逼到原点就是数据收集,数据收集做的不细就做不出东西。这个团队主要是一个central的team,跟所有的业务部门,都是合作互动的关系,大概是这样。
记者:您的团队主要负责数据采集和分析吗?
吕:数据这个词很大,现在这个团队本身的charter很大,我们目前集中在对业务影响力最大的开始,另一个,有三个字:platform,technology的问题,这个是和处理什么数据没有什么关系,像Hadoop就是这种平台,我们强调一种平台化解决问题,这个目标是说如果做好了以后呢,大家都可以用。第二个就是数据,先拿最重要的数据来说,尤其数据是量最多的。最后一个是要用,我听到比较多的就是机器学习这种复杂的,但基本的数据应用从最基本的到最复杂的,很多有价值的东西都不是最上面的一个,尤其是Match learning也不是一个新的东西,这么多年了,最近也非常的火,但是如果真正看对business产生的重要影响的东西肯定还是有很多要学习的。所以我想说的是这个太大了,所以好多东西都是从基本应用开始的,或是对业界产生很大影响的。
记者:互联网公司应该是典型的数据密集型企业了,目前百度的数据量达到了一个什么规模呢?
吕:目前百度从用户的使用量大家都知道是中国最大的,但国际上来讲已经是top5。第一是Google,第二是Facebook,第三是Youtube,Youtube是part of Google,第四是雅虎,第五个就是百度。从量级来讲已经跟Google和Facebook是一样的,面临的挑战也是一样的,而我们网民的增长速度也不比他们差,可能很快时间内我们可能还比他们多,尽管我们现在base在中国。所以遇到的技术挑战这个平台也是很稀有的。Hadoop,包括Google是一个非常成功的改变业界状态的技术,我自己认为又简单又好用,又有scale,是一个非常好的东西。
记者:大数据处理的主要平台是Hadoop,百度的数据分析有多少运行在Hadoop平台上,还有其它的系统吗?
吕:百度在Hadoop上的工作很多,而且在Hadoop上又做了很多的工作。百度不是所有的数据都跑在Hadoop上,还有其他的。但在最大规模的数据都是在Hadoop上跑的,而且百度在这上面做了很多工作,为了让他更稳定,支持的Cluster更大,处理的效率更高。
记者: Hadoop应该属于偏重离线的数据分析的系统,我们该如何理解数据分析的时效性问题?
吕:时效性是必须要考虑的,Hadoop虽然是离线的,Facebook现在已经是在Hadoop上往实时方面工作了,Twitter那边的storm也出来的,我们把Hadoop拿开的话Map Reduce的这个技术就是MR方面的一个基本的理念,还在向前滚动,这个open source community很厉害,这些东西都在往前走,百度时效方面呢有很多自己在做的工作,同时我们也在观察业界所有的顶尖公司,Twitter也好,Facebook也好,Google也好,这种public已经说出来的东西这方面改进也是很多的。其实不仅仅是一个离线的东西,真正的数据的平台你可以理解成一个平台,但其中这两个成分是必须搭配的。
记者:百度在偏重实时性的云计算做了哪些工作?
吕:百度自己做了很多东西,因为百度的产品没有实时性是肯定做不了的,我们特别关注的业内几家主要的公司。大家都说海量数据,都说要实时,如果你的数据没到一定量的话,功能是不一样的。这方面一个是我们自己要做,需要很大的投入,另一个呢就是跟进OpenSource里面的进展,所以很多思路是非常active的。
记者:我们传统理解就是,实时的东西还是需要高性能计算,现在来说,实时处理是高性能的特长,离线是云计算的特长,据了解,国外有些公司能够把基于云计算的实时处理做到秒级,那么百度能做到什么程度呢?
吕:根据我的了解,IaaS还有Search这两个大的里面不是秒级能解决的问题了,已经到了毫秒级,他已经完全把数据的loop给close掉了,我们都的需求都是要几个毫秒。并且,数据分仅不仅要快,还要有效。如果把所有的数据都实时化了,反倒会影响效果。我认为百度是根据既定的很有价值的目标来驱动所有的技术。
记者:那是不是可以这样理解,在一些比较具体的应用上或是相对规模比较小的数据的计算上,百度这种实时处理已经到了毫秒级。
吕:这种case是有的,而且不比世界上任何一个差。
记者:您认为云计算能取代高性能计算吗?
吕:我自己的看法,国内业界对云计算的热情是非常好的。我自己认为云计算将来一定会取代,但现在的状态还是个小孩,我不认为实时计算是云计算不能解决的问题,目前Hadoop的结构中,所谓内部的机制是比较粗放的, real-time方面已经在做,而且业界的发展还是根据很大的industry在驱动。第一,我们没有选择,必须在云上做,我不认为高级性能计算机可以解决这个问题,第二,这种时效性肯定会上来,而且现在技术又这么简单,都有很大的空间可以往前走,但Hadoop这么做其实空间非常大。我认为还是可以取代的,时间我不确定,但是比较成熟的real-time的Hadoop应该马上就会发生了。我们看到已经有很多人,包括Facebook和雅虎都在做。
比如以后我们的人口普查需要高性能计算机来做,等到云计算成熟以后我觉得应该会更快,甚至效果会更好。其实后面的算法都是最basic的。
记者:我们现在使用Hadoop技术的主要是互联网行业,如果其它行业有这方面的需求,就意味着需要把技术产品化。您如何看待云计算技术的产业化?
吕:这方面我想提到的是cloudera。cloudera已经在这方面做了很多尝试,它把Hadoop做得好实际上是为了把它带到非互联网行业,这是一个方向,这是一个私有云的概念。现在还有另一个趋势,这个是几条腿都在走,可能还有公共云,比如说后台都搭建好了,直接拿来用就可以了。还有就是介乎于中间件的,我认为业内在这方面发展的非常快。
公有云方面,我想大家主要考虑是否安全。企业给予我的服务是否与付款数额相匹配,这方面的考虑很多。因为现在这方面还有点做不到,所以像工业的地方走的很快,不管是opensource还是不opensource,有的startup还在走,我相信在未来不管是私有云也好还是公共云,这方面对任何一个产业来讲,变成了简单到了大家都可以用的程度,这也就无所谓只有互联网可以使用,但是目前还的确需要更多的技术积累。
记者:很多的企业的数据量不像互联网企业、电信和银行业这么大,他们需要云计算吗?
吕:国外的很多公司,不管大还是小,它们目前对IT方面技术的投入都比较大。但是我们也注意到这些公司都在往云上走。其实说穿了就是两个问题,第一,如果传统工业解决我的问题,我是小公司,便宜效果还好,我不需要到云中去。云上的问题是说,还是最后到不到点子的问题,它做到了便宜又有效。现在传统工业又要找人又要买机器,这些花销不小的,但它带来的好处是可靠,我在自己家后院我能看到不会出事,这个安全方面绝对有控制感,但实际上这个东西在改变。像国外的startup小公司,他不会自己搞系统建设,都是上到云平台就做了,而且今天下单明天就可以用了,而且花钱也没那么贵。所以,面对中小企业的云计算服务发展起来,将对传统IT行业产生颠覆性的影响。
记者:现在大家都认为Hadoop还处于婴儿时期。您认为Hadoop将来的发展会更偏重于哪些领域呢?
吕:其实你已经谈到了,Hadoop正在往前走。包括概念也一样。它是云计算里大潮一个比较重要的东西,是不是将来把它变成除了数据处理、storage还有查询,比如现在都是file,那将来是不是要搞成数据库啊,将来怎么在上面支持数据库的东西,大家现在还习惯用这些服务,我想这些都应该会往前走,一定会从简单往复杂走,但是归根结底还是业务驱动。来源移动labs大云开发者社区)
没有评论:
发表评论