2012年11月17日星期六

R语言成为数据分析师新宠


R语言成为数据分析师新宠

对一些人来说R只是字母表里的第十八个字母;对另一些人来说R代表限制级电影,或是用来衡量阁楼隔热板的阻热程度,或是电影里海盗的台词。
R还是一个广受喜爱的程序语言的名字,越来越多的公司和学术界的数据分析师开始使用R语言。R语言能够成为他们的交际用语,一定程度上是因为数据挖掘已经进入了黄金时期,不仅可用于广告定价,还可用于更快地找到新药或是微调过的财务模型。很多不同类型的公司都在使用R语言,比如谷歌,辉瑞,默克,美国银行,洲际酒店集团和壳牌。
R语言也为它自己找到了一批追随者,因为缺乏电脑编程技能的统计师,工程师,和科学家们发现R语言很容易使用。
R语言非常重要,因为很难高估它。”Daryl Pregibon这样说,他是谷歌的研究科学家,经常使用这个软件。他说:“统计师们不需要深度掌握计算机系统,就能够使用R语言做出复杂精细的分析。”
R语言还是免费的,它是开源软件,它的流行反映了当下公司里会使用的软件的类型转变。任何人都能免费使用和修改开源软件。IBM,惠普和戴尔每年卖运行开源的Linux操作系统的服务器能赚几十亿,并以此与WindowsMicrosoft系统竞争。大多数的网站都使用开源应用软件阿帕奇,越来越多的公司依靠开源的MySQL数据库存储他们的重要信息。很多人用火狐网页浏览器阅读这些技术的成果,同样的,火狐也是开源软件。
R语言类似于诸如CJavaPerl一类的程序语言,因为它允许人们使用各种不同的指令,来完成很多种类的计算任务。然而对统计师来说,R尤其的有用,因为它内置了大量模板,用来处理数据,根据信息进行计算,或是用图表表示数据集合。
有些很熟悉R语言的人说它是加强版的Microsoft Excel(电子制表软件),用比在行行列列中输入数据更好的方式阐明数据趋势。
R语言非常好用,而且很快就被广泛接受了,这是因为统计师,工程师和科学家们可以改进软件的代码,或者为某些特殊的任务改代码。R语言的包里有高级算法,有色有界面的图表,和数据挖掘技术,这样可以在数据库中挖掘的更深。
一个用R语言的网站中有将近1600多不同的包,包的数量也在指数级增长着。有个叫做BiodiversityR的包提供一个图形界面,这样计算环境趋势会更容易。
另外一个叫做Emu的包分析话语模型,一个叫做GenABEL的包用来研究人类基因组。
金融服务行业特别青睐R语言,光是衍生分析的包就有很多个。
谷歌的首席经济学家Hal Varian说:“R语言的美在于你可以改变它来适应不同的目标,有很多预包的可供你使用,因此你是站在巨人的肩膀上。”
R语言第一次出席在1996,那时候统计学教授 Ross Ihaka和奥克兰大学的Robert Gentleman教授以免费软件包的形式发布了这个代码。
他们说,开发R语言的想法是他们在过道上交谈时产生的。他们都想要更适合统计学学生的技术,因为他们需要分析数据并作出信息的图形模型。很多类似的软件都是计算机科学家开发的,很难用。
教授们说,他们没有接受过高级的计算机科学方向的训练,因此他们写程序充其量算是个学术游戏。然而,从1991年开始他们就把全部时间花在了R语言上。Gentleman教授说:“我们这五六年可以说是分不开,一个人负责打字,另一个人就负责思考。”
有些统计师认为这个软件的雏形很粗糙。但即使R语言有众多的缺点,它还是立刻吸引了预见到未来定制这个免费软件的大批追随者。
John M. Chambers是前贝尔实验室的研究员,现在在斯坦福大学统计专业做咨询教授,很早之前他就是一个成功人士。他在贝尔实验室帮助开发了S语言,这是另外一个统计学的软件项目,本意是提供各行各业的研究员一个可以使用的数据分析工具,但它并不是一个开源项目。
这个软件没能引起广泛的兴趣,最终落在了Tibco Software软件公司的手里。现在R语言已经超越了Chambers教授对S的预期成果。
Chambers教授说:“这些人所做的体现出了极大的多样性,非常令人激动,这真是太棒了。”

没有评论:

发表评论