编者按:过去20年间,微软研究院位于世界各地的实验室都在集中力量研究计算机科学领域中各种课题。研究院从一开始就投入巨资,力图在机器智能领域取得突破,其中包括在机器学习和大数据。在这次采访中,杰出科学家Eric
在位于世界各地的微软研究实验室里,一些非常深刻的思想家正在思考有关大数据的课题。其中就包括微软杰出科学家兼微软雷德蒙研究院联合院长Eric Horvitz。最近,他凭借自己对“不确定性及有限资源情境下的决策型计算机制”的研究而当选为美国国家工程院院士。
他认为,未来的机器在大量数据的武装下,可以成为“大有裨益的终身数码伴侣”,它知道你想要或需要的是什么(是比萨饼还是药物),你想去哪里(是夏威夷,还是选择最不堵车的路线去看球赛),而且往往还能以您的名义饱蘸激情投入工作。
数据的捕获、存储、解读和利用可以提供各种尺度上的深刻见解——无论在高科技领域还是日常生活中,Horvitz表示。
“当今世界上,能够用于预测建模、可视化和发现新事物的大规模有效数据分析正在成为许多领域取得成功的核心要素。”
微软新闻中心最近采访了Horvitz,请他谈谈微软研究院(MSR)是如何投入时间和人力从事大数据和机器智能领域研发,并且取得了哪些突破,同时也请他发表一下对这些领域未来发展的看法。
问:您为什么认为眼下大数据已经成为一个时髦词汇了呢?
Horvitz:时髦词汇的产生有各种各样的原因。对于大数据而言,我认为是几个因素共同导致了这一朗朗上口的词汇的普遍使用。其中之一是人们在不同领域采集到的数据量之大,达到了前所未有的程度;而传感、存储和网络等计算机科学领域也在不断前行。人们需要收集大量数据,一部分原因在于许多人类活动已经转向了网络,各种交易和事件数据的收集变得十分容易,而且能够实时同步收集。这些活动包括电子商务、通过道路上的传感器记录汽车行驶状况、利用位置数据提供智能手机服务,以及医疗保健。在医疗领域,基因组研究的突飞猛进和医院临床数据捕获将越来越多的GB级乃至TB级患者数据输送到数据库中——即便如此,我们仍处于生物医药信息学发展的早期阶段。与以前相比,存储也已变得非常便宜。过去,我们常常说“或许有一天会出现TB级的数据”。而现在,即使你的孩子也可借助一个小小的驱动器,随身携带TB级的数据去学校上课。在计算方面,我们用于处理数据的计算程序也取得了进步,并且出现了许多有趣的用途——例如利用数据建立预测模型等。举个例子,我们可以利用数据,对计算机用户的不断变化的意图或兴趣进行实时预测,并学习识别用户的手势。我们可以借助患者数据来预测病人出院后再度入院的可能性。
问:微软研究院的机器学习研究与该领域的其他机构有何不同?
Horvitz:微软研究院是众所周知的开放型研究实验室,我们鼓励研究者自由发表研究结果和进展。这一点吸引了最优秀和最聪明的人才。在MSR,人们的研究动力来自现实世界里层出不穷的有趣挑战。他们还可以访问大量的数据资源——更诱人的是,他们有机会把自己最棒的想法交托到数百万人的手中付诸实用。在我们这里,专攻机器学习的研究人员是世界各地从事机器智能研究的巨大群体的组成部分。除了机器学习之外,我们的研究工作还包括机器感知、自动推理和决策。机器学习已经渗透到了微软研究院的DNA中,而且也是研究院最早确立的几个关键性优先研究领域之一。
今天,在我们实验室里从事机器学习研究的人员已经构成了一股强大的知识力量。其中包括从事核心原理及应用的深刻思想家团队。在雷德蒙、剑桥、北京、班加罗尔、硅谷、新英格兰和纽约市,我们还有许多其他团队也在从事机器学习研究。总之,这些小组已经构成了世界上最大的机器学习研究团队之一。
问:在MSR的机器学习研究努力中,有哪些成果已经被运用到了微软的产品中?
Horvitz:已经有许多的努力成果应被纳入微软的产品和服务中。这些成绩中有许多要归功于MSR研究员与产品团队之间异常密切的合作关系。举个例子,微软研究院承担了学习如何对事项进行排名的核心工作。这项工作形成了必应搜索在响应用户查询需求时对搜索结果进行排名的核心方法。MSR在视觉系统领域的研究也是众所周知的——机器不仅可以看到,而且还可以识别出它们所看到的东西——此外还有语音识别和翻译。当你使用必应语音搜索或必应翻译时,你就是在利用MSR所提供的核心机器学习研究成果。
我们的剑桥团队之所以名闻遐迩,是因为他们找到了对图像进行分割和分类的方法,这项有价值的创新工作成为Kinect的关键驱动力之一,让它能够识别房间里的人以及他们的手势。
MSR著称于世的还有机器学习研究在生物医药信息学和临床医疗等方面的应用。在雷德蒙实验室,我们已经投入了大量精力研究如何利用来自医院的大量临床数据建立预测模型,以指导医院的管理决策。这些系统目前已经应用到我们周边的医院,旨在提高它们的医疗服务水平。另一项应用是必应地图和必应路线,它能提供北美地区72个城市的车流量敏感型路线指引。必应路线使用了MSR所研发的方法,表明我们能够从交通历史数据中学习,并预测更大城市区域内所有街道上的实时交通流量。机器学习甚至出现在Windows操作系统的深处。MSR与Windows产品团队合作,开发一个实时的预提取系统,并应用于Windows
7和Windows
8。Windows能够不断地学习用户的活动模式,然后预测他的下一步动作——这样会让操作系统变得更快。
问:这种广泛机器智能研究的目标是什么?
Horvitz:方向和目标是非常宽泛的,从机器学习基础科学的探索,到了解如何以最佳方式处理特定类型的数据,再到执行特定任务。我们还在探索和开发更有效率和更强大的工具,以支持机器学习的工程实践。在这个方面,我们一直在探索和开发某些工具和方法,让非专业人士或半专业认识也能够自主开发预测模型并进行数据分析,进而出色完成手头工作。这是一个非常有意思的挑战——把能力交付到最终用户的手中——通常情况下,这种分析能力只掌握在机器学习专家和统计师的手中。
问:这听起来像是一项艰巨的挑战。你们打算从哪里入手,让大众也能享用机器智能?
Horvitz:在机器学习领域,人们已开发了许多算法的程序,而其中每一种通常都会附带某些用于对其方法进行调试的“拨杆”和“旋钮”,使之能够针对手头的数据和任务。目前的问题是,究竟哪种方法才最适用于特定的数据集和学习任务。对原始数据清理、提炼和匿名化,使它们易于处理和分析——这也是挑战之一。机器学习领域有多种危险区域,而各种新工具则可以帮助人们具体指明自己希望学习的内容,以及如何验证其建立的模型所作预测的准确性。此时就需要有决策系统,其核心在于如何根据这些预测,引导人们的行动和政策。我们正在努力创建一些新工具,用于指导数据收集、分析和测试——并且同时为最终用户提供有关可视化和决策的深刻见解。
问:在机器学习领域还有哪些其他的障碍?
Horvitz:我们一直在应对的一大挑战是开发某种可以理解和翻译谈话内容的机器。有时候,准确度的微小进步都会对系统能力产生很大影响。近日在中国天津,(MSR首席研究官)里克·雷斯特当着大批观众的面演示了从英文到汉语普通话的实时翻译能力。他先做即兴发言,接着由机器对他的讲话进行翻译,然后再用他自己的音色把译文重现出来——这样,他就能够实时地说普通话了。他所用的翻译管道包含了多种技术,但从某个角度上看,最突出、最令人讶异的创新则体现在对谈话内容进行语音识别的准确程度得到了惊人的提升。这是过去几年间刚刚出现的新生事物,而这也恰恰是MSR从新的方向进行机器学习研究和实验所取得的成果。
问:那么微软研究院将主攻大数据课题的哪些方面?
Horvitz:目前存在着许多有趣并且前景可观的研究方向。我不得不说,这是一个着实令人兴奋的机会——而且我们正处在一个激动人心的时代。放眼更长远的未来,我预计更广泛意义上的机器学习和机器智能将为我们提供改弦更张的科研新工具,而且在未来几十年间,许多突破将会在人类与机器学习以及推理工具的协作中诞生。我们将有机会从大量数据中学习新的东西,其中包括借助自动学习工具对数据进行挖掘,从而揭开医疗卫生领域的某些奥秘——其中一些工具甚至可以识别因果关系,即A实际上导致了B。
另一个方向是把几种技术编织在一起——包括机器学习、语音识别、自然语言理解、机器视觉和决策,创建一些系统,使之能够像聪明的合作者,以各种新的方式对人类的智慧加以补充。
另一方面,我们在网上搜索和检索的新途径研究中也将获得很多机会。我们还将另辟蹊径,运用机器学习技术,从海量人口数据中撷取有用的信号。例如在最近的工作中,我们开发了一种新的方法,可以从匿名化的搜索日志中发现有关药物副作用的线索。我相信,这种以数据为中心的方法将会通过多种多样的途径改变这个世界,并在医疗、教育、科学和商业等领域产生影响。
问:假设您是Jules
Verne,您能否预言这项研究对未来意味着什么?
Horvitz:展望未来,我相信总有机会构建这样一些系统,它们将成为人类大有裨益的终身数字伴侣,能够深刻理解你想要做什么、你想去哪里,你想学习什么,你需要怎样才可以保持健康,你擅长以及不擅长什么,并且能够以你的名义连续工作,为你提供协助和配合。几个方面的研究工作已经让我们窥见了广阔可能性的端倪。
问:当初您为什么要涉足这个领域?
Horvitz:我一直很想理解人类的心理,我的好奇心驱使我从生物学转入物理学,接着又投身信息与计算科学。除了核心探索之外,多年来我一直乐此不疲地将学习和决策的原理应用于现实世界,并以此创造价值——与此同时,它又与思维系统这一宏观课题保持在某种关联。我与“神级”的同事们一起研究原理及其应用,并从中获得了巨大的乐趣。在微软研究院这样的地方,我们每个人心理都有一个诱人的“杠杆”,而其支点则在遥远的地平线上。我们的下一个创新想法或许真的可以影响到微软的产品和服务,进而撬动整个地球。
问:这正是你们的日常工作,对吧?
Horvitz:(笑)没错。不过,我一直很认真对待这个问题,我们并不是在开玩笑。
问:《哈佛商业评论》已经断言,数据科学家是“最性感的职位”,您怎么看?
Horvitz:这很不错。您可能会说,从某种角度上看,多年来计算机科学和其他工程技术领域一直不受待见,是因为人们面临职业选择时一直在寻找“崇高事业”——例如在医疗保健和法律等。但我相信,计算科学正在成为我们这个时代的“崇高事业”,因为计算促成了许多其他事物,从航空航天到医疗科学,从法律到政府管理。
________________________________________________________________________________
欢迎关注
微软亚洲研究院人人网主页:http://page.renren.com/600674137
微软亚洲研究院微博:http://t.sina.com.cn/msra
没有评论:
发表评论