据福布斯报道,Hadoop
之父 Doug Cutting 在近日的 Oracle Code One
大会(原 JavaOne )
上,获得了“开拓者奖”(Groundbreaker Award)。Doug Cutting 是 Hadoop
的创始人之一,Cloudera 的首席架构师,同时也是开源运动的传播者,为 Hadoop
和 Lucene 以及许多其他项目做出了贡献。

8月4日,由O’Reilly和Cloudera共同举办的全球顶尖的大数据会议Strata+Hadoop
World在北京召开。Strata+Hadoop World (SHW)
是世界最大的大数据盛会,它为各种技术提供了深度交流的机会,参会者在这里能看到最领先的技术、最广泛的应用场景、最有趣的用例教学,以及最全面的大数据行业和趋势探讨。

0x00 前言

2014年,Hadoop之父Doug
Cutting在清华开了一次讲座,当时三个小伙伴一起翘班骑自行车到现场听了这场讲座,很认真地做了笔记。
现在翻出来回顾一下感觉还是有不少感触的,稍加整理分享出来。

澳门新葡萄京官网注册 1

作为致力于聚集大数据领域最有影响力的产业决策者、战略专家、架构师、开发人员和分析师的国际性会议,从硅谷首次走进中国,旨在汇聚Hadoop生态最前沿科学与新兴商业基础的相互碰撞,共同打造产业和技术的未来。

0x01 讲座记录

整个讲座约一个小时,两点半左右开始,前半个小时左右Doug Cutting
总共大概7张PPT,后半个小时互动。

Doug
Cutting总共讲了大概7张PPT,每张PPT只有一个标题,正文是一张图片,内容主要讲的是自己的开源事业、Lucene、Hadoop等。

图片来自福布斯

SHW的演讲不仅涵盖了全世界大数据领域顶尖技术专家,同时还有各种大数据应用场景的经验介绍,包括金融、多媒体、零售、物流等。

PPT One:Means For Change : Hardware

提了moore定律,讲了处理器、存储这些硬件更新的速度很快。这是一个硬件基础。

Doug Cutting
还分享了他对开源的看法,他喜欢开源的原因之一是因为开源软件的寿命很长。他在
2000 年之前写的商业软件,早已不再使用了,相比之下,他自 2000
年之后为各种开源项目所写的一切仍然存在。开源软件不会像商业产品那样因为停产或公司破产而突然消失。

我们现在的生活已经完全进入了信息化时代,可能所有人都间接用过Doug
Cutting的作品,他是Lucene、Nutch
、Hadoop等项目的发起人。是他,把高深莫测的搜索技术形成产品,贡献给普通用户,同时还打造了目前在云计算和大数据领域里如日中天的
Hadoop。Doug
Cutting现任Cloudera首席架构师,对于Hadoop在国内的推动,最近又有新进展。

PPT Two:Fuel For Change : Data

这里讲了一个逻辑,引出来了Open Source的重要性。

首先提出来Software is eating the
industry,软件飞速发展;由此会产生各种各样的数据,而且数据量非常大,价值非常高;因此需要有Tools来处理这些数据,继而引出了下一张PPT:OpenSource。

“开源对个人来说,是很好的能力和痕迹证明。即使你更换了工作岗位,但你参与的开源项目仍然可以继续,你仍然可以为它们做出贡献。”

澳门新葡萄京官网注册 2

PPT Three:Seeds For Change :Open Source

关于开源软件的好处大概讲了一下,没有讲特别多,大致上也是方便开放,有用故而用之。

其中提到他自己开始开源事业的一个想法,就是在做Lucene的时候,发现自己不适合搞Business,所以Give
it away~澳门新葡萄京官网注册,~

这张ppt还提到三个重要的Component,没有听清是什么的三个组成部分,大概是整个计算机行业的?

三个分别是:Hardware、Data、Software

Doug Cutting
认为所有软件开发者都应该将开源纳入自己的职业规划, 因为会有更多双眼睛看到你的代码。你会拥有一个更大的社区,他们知道你正在做什么,他们会给你提交建议和反馈,他们可以直接参与你的项目,这对你的职业生涯有益。

清华大学数据科学研究院近日宣布与数据管理和分析平台Cloudera合作。在Cloudera
CAP学术合作项目的支持下,清华大学和Cloudera将联合发布BASE (Big Analytics
Skill Enablement)倡议,以期解决中国大数据行业的人才稀缺困境。

PPT Four:New DataStyle:Hadoop

这张PPT引出来了Hadoop,Hadoop大概介绍了一下。提到了GFS,Hadoop的很多思想都是参考了GFS的。Google发表了论文,提出了它的这种理论,大家都很感兴趣,但是不是Google的原因,因此没法非常方便用。这时候Hadoop就出来了,OpenSource方便,易得。有其天然的亲民优势。

Doug
Cutting提到自己去了Yahoo,因为Yahoo需要处理大量的数据,还有大量的硬件可以用,和自己很契合。


对于开发者而言,有个非常重要的点是,需要考虑他们构建的开源软件如何被其他人采用,并以新的方式进行扩展和改进。因此,拥有优秀的算法和聪明的技术非常重要,你需要以一种其他人可以在你之后继续维护该项目的方式进行编码。”

在合作项目仪式之后,笔者有幸对这位传奇人物Doug
Cutting进行了采访,接下来让我们一起来听听创始人是如何解读Hadoop的吧。

PPT Five:Style Catches on:Ecosystem

介绍了Hive、Pig、Spark等,没过多的讲。

(文/开源中国)    

Hadoop越来越重视安全

PPT Six:Victor Emerges:Enterprise Data Hub

大致讲了自己在Cloudera工作,介绍了Enterprise Data
Hub的重要。记得说了一句话: I am lucky in the right place in the right
time.(语法感觉有点别扭)提到了这是Future tool。

Hadoop如今已经成为开源的代名词之一,其应用范围也非常之广,但安全方面一直饱受争议。据Doug介绍:其实十年前在Hadoop创立的时候是没有做安全这块的,但是我们后来不断的加强对安全模块的研发,现在Hadoop也成为了非常安全的平台。

PPT Seven:The Data Multi-Tool

快结束了,说到了hadoop的一些存在意义,举了一个例子,这个例子正是PPT的图片,是个手机。大致意思是:手机可以干很多事,比如照相,但是照相的功能不如一些专业的相机。但是有一点可以确定,大家用手机照相的时间比相机多,为什么呢,因为手机一直在你身边,你什么时候都可以用,而且除了照相,我还可以把照片分享,总的来说,就是已经存在,而且方便。

Hadoop也类似,现在有很多的计算框架,Spark、Storm这类的。这种情况不必否认其他的存在,Hadoop大家会比较熟悉,而且应用很广泛,在你需要的时候,可能你就有一个Hadoop的集群环境,有些计算可能Spark性能更好,但是Hadoop也可以做,方便使用。

这让我想到了操作系统,未必是Windows最好,但是大家都习惯了,也就是够用了,再出现一个新的操作系统,除非你让我感觉有了你我就不想用Windows了,Windows已经够用了,不必非要把它换掉,类似道理。

首先,Hadoop在登录安全方面已经做了增强,可以确保登录的人群是有着合法认证的。另外在文件层面也有安全保护,可以做到某一个栏或者某一个表格都只有一部分人能登录,经过认证的人能看到,其他没有权限的人看不到,所以这种权限管理和登录认证管理,还有文件保护管理都做得非常好。

0x02 现场问答

最后是提问时间,大该记录了几个问题。

动态保护方面,在网络上进行数据传输的时候也会有数据加密,通过数据加密的方式保护正在传输中的数据不会有泄密或者是安全的漏洞。而且Cloudera也在不断的研发新技术,对于Hadoop这个平台有层出不穷新的部分加入进来。

1.安全问题。

Doug Cutting回答的大概意思是:技术解决 + Social Solution。

感觉这是个难题,最近这几年安全问题越加严重。

  与高校合作推动开源发展,培养更多人才

2.Relational Database 和 Nosql

这个其实不是新问题了,Doug Cutting说的一句重点:Each has its uses

澳门新葡萄京官网注册 3

3.Spark,Storm的存在

比如Spark是用Memory的Hadoop现在是HDFS,是否要向Spark学习一下呢

Doug
Cutting的大概回答是,这是Ecosystem,每个Component都有其作用,各善其职即可,I
am happy to see
Spark。还有就是,这是开源软件,并不是一个公司控制了Hadoop另一个控制Spark,两个公司在竞争。因为是开源,最终的目的都是为大家所用。

现在的Hadoop和Spark的确是一个打的生态系统,不是竞争,是一种共生的感觉。

在高校合作方面Cloudera也是早有建树,据Doug介绍:我们在海外也跟很多大学在展开合作,这些合作的名单非常长,包括美国的大学,包括新加坡的大学还有亚洲其他国家大学,也包括欧洲的一些大学和研究机构。

4.什么是Bigdata

Doug Cutting回答了很长一串,最后听出来重点是:Not the size,it’s the
style。

喏,Bigdata是一种思想,一种处理方式上的体现。我是否可以理解为数据多少不重要,重要的是处理的方法?

合作的主要形式就是提供免费的课程,这些全套免费的课程Cloudera开发了很多年,免费提供给这样的大学共同展开合作。Cloudera在中国选取的第一个合作方是清华大学,今后还将会与更多的中国大学展开合作。

5.Cloudera和Hortonworks

Doug Cutting也回答了一些客套的话,然后说的是:Happy competition。

Doug Cutting亲自印证,国内企业对开源贡献非常多

0xFF 总结

在翻之前笔记,一晃眼就三年了,感觉的确挺快的,那时候还是个学生。
三年时间变化也挺大,以前对大数据懵懵懂懂还不知道自己会不会走上这条路,现在已经在这个行业混迹了接近两年了。

感谢Doug Cutting这些大佬,感谢开源社区,创造了千千万万的就业机会。


作者:dantezhao
|简书 |
CSDN |
GITHUB

个人主页:http://dantezhao.com
文章可以转载, 但必须以超链接形式标明文章原始出处和作者信息

澳门新葡萄京官网注册 4

公众号

最近一段时间笔者重点听了很多著名国内企业技术人员的演讲,他们大都会提到对开源社区的代码贡献。但实际情况到底如何呢?这个问题甩给Doug最好不过了。

Doug表示:中国的企业确实为整个Hadoop的开源社区做了大量的贡献,例如华为。华为很多年一直参与到Hadoop的开发,也贡献了很多,像阿里巴巴、腾讯包括一些大的中国互联网企业,他们都是Hadoop的使用者,同时也是Hadoop技术的贡献者,中国企业确实贡献非常多。

关于Hadoop开发包含两个层面,一个是Hadoop这个项目本身,第二就是围绕Hadoop的中心有很多其他组件进行开发。比如Linux,提到的不仅仅是内核,除了Linux内核以外还有很多其他应用软件运行在Linux之上,Hadoop也是如此。目前90%的Hadoop软件都是运行在Hadoop系统平台之上的,它来自Hadoop平台之外的开发。比如一些美国开发的软件是隶属于Hadoop整个生态体系之内的,相信越来越多开发者虽然不是直接来自Hadoop,但是在整个生态系统环境内Cloudera会打造一个非常丰富的生态系统,让更多的参与者能够进行开发。

Cloudera的模式之所以成功,也是基于Cloudera自身特点的,但对其他的开源厂商并非合适。Doug
Cutting最后表示:每家公司都要去探索最适合自己的路和商业模式。我们也拭目以待看下一个十年会出现哪些商业模式。