关注Linux 及系统架构: 04/08/13

2013年4月8日星期一

暗时间

刘未鹏，Mindhacks帮主，在这块自留地上笔耕不辍了八年。他从2003年在《程序员》杂志上发表第一篇技术文章，并开始在CSDN写技术博客。起初的博客较短，也较琐碎，并夹杂着一些翻译的文章，后来才慢慢开始有了一些自己的心得和看法。八年来，虽然平均每个月写1篇或者更少，但他从未停止。写博客这件事情，给他带来的最大体会就是，一件事情如果你能够坚持做8年，那么不管效率和频率多低，最终总能取得一些很可观的收益。而另一个体会就是，一件事情只要你坚持的足够久，“坚持”就会慢慢变成“习惯”。原本需要费力去驱动的事情便成了家常便饭，云淡风轻。

六月底，一本刘未鹏八年博客文章精选而出的文集《暗时间》即将出版。他说：“善于利用思维时间的人，可以无形中比别人多出很多时间。”这里的“思维时间”，即他所谓的“暗时间”。

作者：刘未鹏

如果你有一台计算机，你装了一个系统之后就整天把它搁置在那里，你觉得这台计算机被实际使用了吗？没有。因为CPU整天运行的就是空闲进程。运行空闲进程也是一天，运行大数据量计算的程序也是一天，对于CPU来说同样的一天，价值却是完全不一样的。

大脑也是如此。

善于利用思维时间的人，可以无形中比别人多出很多时间，从而实际意义上能比别人多活很多年。我们经常听说“心理年龄”这个词，思考得多的人，往往心理年龄更大。有人用10年才能领悟一个道理，因为他们是被动领悟——只有在现实撞到他脸上的时候才感到疼，疼完了之后还是不记得时时提醒自己，结果很快时过境迁抛之脑后，等到第二次遇到同一个坑的时候早忘了曾经跌过跟头了，像这样的效率，除非天天摔坑里，否则遗忘的效率总是大过吃亏长的记性。善于利用思维时间的人则能够在重要的事情上时时主动提醒自己，将临时的记忆变成硬编码的行为习惯。

每个人的手表都走得一样快，但每个人的生命却不是。衡量一个人生活了多少年，应该用思维时间来计算。举一个极端的例子，如果一个人从生下来开始就呆在一个为他特殊建造的无菌保护室里，没有社会交往，没有知识获取，度过了18年，你会不会认为他成年了？

认为时间对每个人是均等的是一个错觉，认为别人有一天，我也有一天，其实根本不是这样。如果你正在学习一门专业，你使用自己所投入的天数来衡量，很容易会产生一种错觉，认为投入了不少时间，然而其实，“投入时间”这个说法本身就是荒唐的，实际投入的是时间和效率的乘积。你可以“投入”很多时间在一件事情上面，却发现毫无进展，因为你没有整天把你要做的事情，要学习的东西常驻在你的大脑中，时刻给予它最高的优先级。你走路的时候吃饭的时候，做梦的时候心心念念想的就是这件事情，你的CPU总是分配给它，这个时候你的思维时间就被利用到了极致，你投入的时间就真正等于了实际流逝的时间，因为你的CPU是满载的。

如果你有做总结的习惯，你在度过一段时间之后总结自己在某某领域投入了多少时间，建议千万不要粗略地去计算有多少天下班后拿起书来翻看过，因为这样你也许会发现书倒是常翻，但领悟却不见得多深，表面上花的时间不少，收益却不见得那么大。因为看书并记住书中的东西只是记忆，并没有涉及推理，只有靠推理才能深入理解一个事物，看到别人看不到的地方，这部分推理的过程就是你的思维时间，也是人一生中占据一个显著比例的“暗时间”，你走路、买菜、洗脸洗手、坐公车、逛街、出游、吃饭、睡觉，所有这些时间都可以成为“暗时间”，你可以充分利用这些时间进行思考，反刍和消化平时看和读的东西，让你的认识能够脱离照本宣科的层面。这段时间看起来微不足道，但日积月累将会产生庞大的效应。

能够充分利用暗时间的人将无形中多出一大块生命，你也许会发现这样的人似乎玩得不比你少，看得不比你多，但不知怎么的就是比你走得更远。比如我就经常发现一些国外的牛人们为什么不仅学习牛逼，连“业余”玩儿的东东也都搞得特牛逼，一点都不业余（上次在《How We Decide》上看到斯坦福的一个牛人，理论物理学博士，同时是世界扑克大赛的前六名保持者，迄今累计奖金拿了六百多万刀），你会奇怪，这些家伙到底哪来的时间，居然可以在不止一个领域做到卓越？

斯坦福牛人Michael Binger，世界扑克大赛的前六名保持者

程序员们都知道，任务切换需要耗费许多额外的花销，通俗地来讲，首先需要保存当前上下文以便下次能够顺利切换回来，然后要加载目标任务的上下文。如果一个系统不停地在多个任务之间来回倒腾，就会耗费大量的时间在上下文切换上，无形中浪费很多的时间。

相比之下，如果只做一件任务，就不会有此损失。这就是为什么专注的人比不专注的人时间利用效率高得多的原因。任务切换的暗时间看似非常不明显，甚至很多人认为“多任务”是件很好的事情（有时候的确是），但日积月累起来就会发现，消耗在切换上的时间越来越多。

另外，大脑开始一件任务的时候必须要有一定时间来“热身”，这个时间因人而异，并且可以通过练习来改变。举个例子，你看了一会书之后，忽然感到一阵无聊，忍不住打开浏览器，十分钟后你想起来还要继续看书，但要回复到当时理想的状态，却需要一段时间来努力去集中精力，把记忆中相关的知识全都激活起来，从而才能进入“状态”，因为你上了十分钟网之后这些记忆已经被抑制了。如果这个“热身”状态需要一刻钟，那么看似十分钟的上网闲逛其实就花费了二十五分钟。

如果阅读的例子还不够生动，对于程序员来说其实有更好的例子：你写程序写得正high，忽然被叫去开了一通会，写到一半的代码搁在那儿。等你开完会回来你需要多久能够重新进入状态？又或者，你正在调试程序，你已经花了二十分钟的时间把与这个bug可能相关的代码前前后后都理解了一遍，心中构建了一个大致的地图，就在这时，呃，你又被叫去开了个会(:D)，开完会回来，可想而知，得花上一些时间来回想一下刚刚弄清的东西了。
迅速进入状态的能力是可以锻炼的，根据我个人的经验，至少可以缩短到3-5分钟。但要想完全进入状态，却是很难在这么短的时间实现的。所谓完全进入状态，举个例子：你看了3个小时的书，或者调试了半个小时的程序之后，往往满脑子都是相关的东西，所有这些知识都处在活跃状态，换言之你大脑中所有相关的记忆神经网络都被激活了，要达到这样一种忘记时间流逝的“沉浸”状态（心理学上叫做“流体验”），不是三两分钟的事情。而一旦这种状态被破坏，无形间效率就会大打折扣。这也是为什么我总是倾向于创造大块的时间来阅读重要的东西，因为这样有利于“沉浸”进去，使得新知识可以和大脑中与其相关的各种既有的知识充分融合，关联起来，后者对于深刻的记忆非常有帮助。

要充分利用暗时间，不仅要能够迅速进入状态，另一个很重要的习惯就是能够保持状态多久（思维体力）。《The Psychology of Invention in the Mathematical Field》上有一段关于庞加莱的思考习惯的介绍，很有代表性。庞加莱经常在去海边休假或者在路上走的时候在脑海中思索数学问题，很多时候解答就在这些时候忽然闪现。虽然我和庞加莱是没法比的，但是常常也在路上想出答案，这真是一种愉悦的体验。

能够迅速进入专注状态，以及能够长期保持专注状态，是高效学习的两个最重要习惯。

很多人都有这样的体验（包括我自己），工作了之后，要处理的事情一下多出了很多，不像在校园，环境简单，生活单纯，能够心无旁骛地做一件事情而不被打扰。工作之后的状况就是，首先需要处理的事情变多，导致时不时需要在多个任务之间切换；另一方面，即便能够把任务的优先级分配得比较合理，也难免在做一件事情的时候心中忽然想起另一件事还没做的焦虑来，因为没做完的事情会在大脑中留下一个“隐藏的进程”，时不时地发个消息提醒你一下，中断你正在做的事情。

因此这里就涉及到最后一个高效的习惯：抗干扰。只有具备超强的抗干扰能力，才能有效地利用起前面提到的种种暗时间。抗干扰能力也是可以练习出来的，上本科那会经常坐车，所以我就常常拿着本大部头在车上看，坐着看或者站着看都可，事实证明在有干扰的环境中看书是非常锻炼专注能力的一个办法:D 另外，经常利用各种碎片时间阅读和思考，对迅速集中注意力和保持注意力都非常有帮助。记得很久以前TopLanguage上大伙曾经有次饶有兴趣地讨论“马桶时间”的利用，包括在卫生间放个小书柜。（估计很多同学心有戚戚焉吧暗时间

）

图灵的遗产和后继者们的责任

作者：微软亚洲研究院院长洪小文

一.艾伦·图灵的遗产
2012年6月23日是艾伦·麦席森·图灵（Alan Mathison Turing）诞辰100周年纪念日。多年以来，计算机

行业的从业者总是对图灵怀有一种特殊的崇敬——不只因为这位英国数学家堪称为计算机科学领域的诺贝尔和爱迪生，也不只因为全球计算机学界最具代表性与影响力的奖项因他而得名，更重要的是，早在76年前，图灵已凭借其令人震撼的天赋对智能机器的“躯干”与“灵魂”做出了界定，从而奠立了现代计算机及其所有衍生品的理论模型。

图灵是真正意义上的“百年难得一见的天才人物”。有关他的耀世才情、多舛际遇，已有许多记载和评论，在此不做赘述——而当今天我们用崇敬的目光回望他对计算机科学所作的贡献，或许可以用三个关键词来概括：图灵机、图灵测试、图灵奖。

1936年，图灵描绘出的“通用图灵机”（Universal Turing Machine），成为后世超级计算机和个人计算机、复杂设备和通用设备所共同依循的设计雏形，甚至于新一代量子计算机也仍是以图灵机为原型。这个简单有效、趋近完美的模型规范了机器演算时的主要组件，包括运算、存储、程序、呈现。邱奇-图灵论题（The Church-Turing thesis）亦值得一提，其要旨是所有的计算和算法都可以用图灵机来完成。此论题虽无法证明，但也从未被推翻。图灵机出现以前的计算设备，比如算盘和其他机械式运算设备，虽然也是通用的“计算机”，但它们不可能像图灵机那样执行所有的计算任务。另外算盘的“程序”只能储存在演算者的大脑里，而图灵机存储的程序成为计算机自身的一部分，这就是很重要的区别。

在图灵机模型诞生9年后，1945年，另一位对计算机科学发展产生重大影响的天才冯·诺依曼（John Von Neumann）和几位同事联名发布了具有里程碑意义的101页“EDVAC报告”。该报告在图灵机的基础上明确了电子计算机须以二进制替代十进制运算以及用二维矩阵代替一维磁带来储存资料与程序，并将计算机的逻辑结构划分为运算、控制、存储、输入、输出五部分。冯·诺依曼因此被誉为“电子计算机之父”，而他本人却谦逊地将此殊荣归于图灵——他曾多次向同事和朋友强调，计算机的基本概念无疑是由图灵提出的，而他自己只是使更多人了解了由图灵建立的概念。

图灵也是“人工智能（AI）之父”。1950年10月，在曼彻斯特大学任教的图灵发表了一篇名为《计算机与智能》（Computing Machinery and Intelligence）的论文，首次提出机器具备思维的可能性。“图灵测试”通过让测试主持者对计算机及作为参照考察对象的人进行一系列问题验证，来判断与之对话的是人还是机器——如果无法判断或混淆了被考察的机器和人，则可认为被测试的机器具有某种程度的智慧。图灵曾预言说，至20世纪末，一定会涌现出可通过图灵测试的计算机。从某种意义上说，这一预言在1997年5月实现。当时国际象棋之王卡斯珀罗夫在美国纽约与超级计算机“深蓝”对弈，结果“深蓝”取得了胜利——在“深蓝”接连走出几步妙棋杀招时，人类冠军几乎不相信与他对弈的是台机器。尽管连“深蓝”的创造者许峰雄博士（他已在微软亚洲研究院工作了9年）都表示，“深蓝”并不是完全基于人工智能技术而构建，但客观上，能够让对手感到它不像机器，这足以说明未来出现有智慧的机器绝非不可能。

和图灵机、图灵测试一样，“图灵奖”亦可视为大师图灵留给我等计算机从业者的遗产。被誉为计算机学界的诺贝尔奖的图灵奖由美国计算机协会（ACM）于1966年设立。这一全球计算机科学领域最高荣誉的名称，展现出整个产业对于图灵这位杰出前辈的崇敬与追慕。

从图灵非同凡响的一生，我们可以得到许多启示。例如，1936年5月28日是一个值得纪念的日子。这一天，图灵在他的重要论文《论可计算数及其在判定问题上的应用》（On computer numbers, with an application to the entscheidungsprobelms）提出了图灵机的概念。那时的图灵年仅24岁，尚未获得博士学位——这一点对于年轻人来说非常有意义——成就无关年龄，学术探索的攀越路程中，需要敢于挑战、敢于质疑、敢于颠覆的锋锐之气。哪怕是阅历和经验不足，也一样有机会做出深刻影响无数时代的伟业。

再比如，图灵的确是了不起的大师，但他也是站在先贤和同时代英杰的肩膀上才能取得那样耀眼的成绩。在他的学术生涯中，戴维·希尔伯特（David Hilbert）、库特·哥德尔（Kurt Gödel）以及导师阿隆佐·邱奇（Alonzo Church）都对他有很大帮助，或是为他设立了横亘于前方的挑战。哥德尔的名言“有些事实被认知为真，但不必然可证”就像是对邱奇-图灵理论的最佳概括。

图灵曾提出与邱奇-图灵论题一样重要的停机问题（Halting Problem）——判断任意一个程序是否会在有限的时间之内结束运行的问题，即是从数学界前辈那里得到的启发。停机问题受到了哥德尔的不完备理定理（Incompleteness Theorem）以及邱奇的兰姆达运算（λ－calculus）的影响，同时也是解决希尔伯特*判定问题（Entscheidungsproblem，DecisionProblem）的最佳证明。

这些故事提示着我们，即便伟大如图灵，学术基础也是建立在已逝去或仍在世的同行的灵感上。所以，任何科学家、学者都应以谦逊的态度面对前人、课题相关者做出的贡献——这也是微软亚洲研究院自1998年成立以来始终坚持开放、分享、合作理念，且每年举办“21世纪的计算”学术盛会的原因。

二.和微软亚洲研究院结缘的图灵奖得主
说到“21世纪的计算”，过去14年来，我们每年都会邀请图灵奖的获得者到场，与中国的与会人才分享他们对科研课题、学术方法的心得与感悟——毫不夸张地说，在全球计算机科技界，图灵奖得主可说是雄踞金字塔尖的顶级人物。从1966年到2011年，共举办了46届图灵奖，其中的36年，每年仅有一位获奖者。所以，迄今为止获，得过图灵奖的学术巨擘不过只有58位，大部分获奖者是由于对计算机理论、计算机语言、计算机系统及人工智能等方向的重大贡献而获此殊荣。

1966年首届图灵奖得主艾伦·佩利（Alan J. Perlis）是因高级程序设计技巧和编译程序构造而获奖。很遗憾我没有和他交流过，但我们有些渊源——他是卡内基·梅隆大学计算机系的创始人，在他获奖的20年后，我成为了这个系的学生。2011年的图灵奖由UCLA的朱迪亚·玻尔（Judea Pearl ）教授摘得，因其在机器学习与交互领域的非凡影响。我听过玻尔教授的演讲，鉴于微软亚洲研究院目前与机器学习相关的研究几乎占项目总量的一半，我们正在计划于不久的将来请他到中国做客。

我最熟悉的图灵奖得主当然是读博士生时的导师罗杰·瑞迪（Raj Reddy）教授。1994年，他和爱德华

·费根鲍姆（Edward Feigenbaum）因在“大规模人工智能系统”方面的突破而获奖。1986-1992年，我师从于瑞迪教授，对人工智能、语音、计算机视觉方面进行了深入研究。他获奖的消息传来时，我也感到与有荣焉，似乎原本遥不可及的图灵奖突然离自己近了——虽然得奖的不是自己，但之前一起做的研究多少对导师获奖有些贡献，已经感觉到无比的荣耀，也替他高兴。瑞迪教授对我后来的职业生涯产生了极其重要的影响。今天看来，无论学术态度、研究方法，还是待人和处事，我都获得了很多教益。瑞迪教授与微软、中国也有着深厚的友谊和密切的联系——1999年、2003年、2008年，作为微软亚洲研究院“21世纪的计算”大会的贵宾，瑞迪教授三次来华。在此期间，他还与浙江大学的老校长潘云鹤院士共同倡议启动了“中美百万册数字图书馆”项目。2004年，中国教育部正式立项“高等学校中英文图书数字化国际合作计划（China Academic Digital Associative Library，CADAL）。目前，这个拥有上百万册图书的数字图书馆已成为全球最大的公益性数字图书馆。正因为这些对中国的卓越贡献，瑞迪教授在2009年当选为中国工程院外籍院士。

不仅如此，瑞迪教授还与他的导师约翰·麦卡锡（John McCarthy）、师妹芭芭拉·丽兹科（Barbara Liskov）一起，组成了图灵奖评奖历史上罕有的“一门三杰”——约翰·麦卡锡是过去半个多世纪以来最重要的计算机科学家之一，他是“人工智能”概念的提出者（1955年）和LISP语言的创造者，于1971年获得图灵奖。芭芭拉·丽兹科是美国历史上第一位计算机科学女博士，目前任教于麻省理工。2008年，她因在“程序设计语言和系统设计的实践与理论”方面的卓越贡献而获得图灵奖。2010年，丽兹科教授曾应微软亚洲研究院的邀约来华参加“21世纪的计算”大会。

迄今为止，“一门三杰”的佳话在图灵奖历史上仅有一例。不过，我相信未来一定会有其他的师生组合打破这个纪录——其实，除约翰·麦卡锡师徒三人外，过往46年的图灵奖还涌现过三对“师生党”一起得奖。

第一对是1975年的获奖者赫伯特·西蒙（Herbert Alexander Simon）和艾伦·纽厄尔（Allen Newell）。前者是后者的老师，他们的获奖理由是在人工智能方面所做的基础性贡献。这两位大师都曾是卡内基·梅隆大学的教授，我的人工智能启蒙都是从读他们的文章开始的。也可以说他们是我加入卡内基·梅隆的原因。我很欣慰我能够有幸听过西蒙和纽厄尔教授的课以及一起讨论问题。西蒙教授也是一位真正的传奇人物，在经济学、政治学、管理学、计算机科学、认知心理学等多个领域有所建树，还是历史上唯一一位同时获得图灵奖和诺贝尔经济奖（1978年）的天才。他与中国交流很多，还给自己起了个中国名字叫“司马贺”。20世纪七十年代起，他多次造访中国，并担任过中美科技交流委员会美方主席。1994年，他获得中国科学院外籍院士称号。2001年，西蒙教授逝世后，一些追忆文章称他为“中国人民的老朋友”——尽管西蒙和纽厄尔这对师徒今天都已不在人世，但他们的影响将存留在许多人的心中。

第二对是1986年的图灵奖由约翰·霍普克罗夫特（John Hopcroft）和罗伯特·塔扬（Robert E. Tarjan）分享，他们因在算法和数据结构设计与分析方面的突破而获奖。这对师徒中，与微软亚洲研究院和中国走得很近的是霍普克罗夫特教授，他是一位非常值得尊敬的长者，是研究院常务副院长郭百宁的博士生导师，曾于2001年、2007年、2010年三度出席“21世纪的计算”大会——特别令人感佩的，是他对包括中国在内的发展中国家的教育事业的热情。这几年里，他几乎每年都来中国，与清华大学、上海交大等国内知名高校的师生频繁互动、授业传道，付出了很大的心力。塔扬教授现任教于普林斯顿大学，他将在今年参加“21世纪的计算”大会并作为演讲嘉宾。

第三对是2007年的爱德蒙·克拉克（Edmund M. Clarke）和艾伦·艾默生（Allen Emerson）。在哈佛大学任教期间，克拉克和他的博士生艾默生“首次提出了模型检查的想法并用在自动机并发系统的验证研究上”，十多年后，这对师徒与希腊计算机科学家、VERIMAG实验室的创办者约瑟夫·西法基思同获2007年的图灵奖，原因是他们“对于当前在软硬件领域被广泛应用的模型检查发展成为重要且高效的验证技术所做出的杰出贡献”。1994年，著名的英特尔芯片浮点（floating point）除法故障最后就是使用模型检查的技术来解决的。2011年，克拉克教授作为“21世纪的计算”大会的嘉宾，造访过微软亚洲研究院。

三对“师徒党”之外，我接触比较多的图灵奖大师当然是2000年获奖的“华人之光”姚期智博士，他是迄今为止58位图灵奖获得者中唯一的华人，曾三度出席“21世纪的计算”大会（2002年、2006年、2011年）。近年来，姚期智教授一直致力于为中国培养一流科研人才、推动研究水平升级。2007年，他创办了清华大学理论计算机科学研究中心，并牵头组建了强大的国际化师资团队。2009年，姚期智教授提出了“中国计算机科学2020计划”的发展战略，意在整合中外学者的智与力，使中国在2020年成为世界一流的计算机科学基地。我非常钦佩姚期智先生对中国计算机科研和教育事业所作的贡献，也愿意以他为榜样，竭尽一己绵薄之力，襄助中国IT业高端研究人才的培养。

三.微软的图灵奖大师“俱乐部”
作为多年来引领着全球软件和互联网行业创新趋势的企业，微软内部也有好几位图灵奖大师。
巴特勒·兰普森（Butler Lampson）和查尔斯·萨克（Charles P. Thacker），分别于1992年和2009年获得图灵奖——前者的获奖原因是在分布式计算环境及包括工作站、网络、操作系统、程序语言等多元技术领域在内的个人计算环境方面的创新；后者则因说明设计、制造第一款现代个人计算机而得奖。

之所以将这两位巨人放在一起介绍，不仅因为他们现今都是微软全球研发体系的灵魂人物，还由于20世纪70年代，他们是施乐公司PARC研究中心（Palo Alto Research Center, Inc.）ALTO计划的创新核心——对PC和互联网时代产生深刻影响的那些公司，如微软、苹果均是站在ALTO计划的肩膀上才取得成功。个人计算机、鼠标、激光打印机、图形接口、以太网的雏形均诞生于ALTO计划。那时，兰普森则是软件总工程师，萨克则是ALTO个人计算系统的首席设计师。后来，史蒂夫·乔布斯研发的Mac计算机以及微软的Windows，某种程度上都脱胎于ALTO计划的奇思妙想——值得一提的是，今天被广泛应用的个人计算机的原型机，ALTO个人计算系统，不止孕育了两位图灵奖得主——2003年，艾伦·凯（Alan Kay）亦由此项发明而获奖。他也是我在苹果公司工作时的同事，还参加过2009年的“21世纪的计算”大会。一项计划孕育了三位图灵奖得主迄今可说是绝无仅有。

加盟微软后，兰普森和萨克同样做出了巨大的贡献。在微软研究院与这些大师级人物共事、规划计算机的未来，我感到非常幸运——1999年，兰普森是微软亚洲研究院首届“21世纪的计算”大会的贵宾。之后，他又于2003年、2008年两度访华参与这一盛会。萨克则是2004年、2010年两届“21世纪的计算”大会的特邀前辈。
另一位微软图灵奖大师“俱乐部”成员是查尔斯·安东尼·理查德·霍尔（Sir Charles Antony Richard Hoare）爵士——朋友们通常昵称他为托尼·霍尔。他是程序逻辑（即“霍尔逻辑”）的鼻祖，于1980年获图灵奖。2000年，他因在计算机科学与教育领域的贡献而获英国王室颁赠的爵士头衔。他当前是微软剑桥研究院的首席研究员，由他提出的程序逻辑的方法，目前在大型软件（如Windows、Office）的开发过程中广泛应用，价值与影响无法估量。他曾两次莅临“21世纪的计算”大会，分别是在2001年和2008年。近年来，他还经常赴中国参加各种研讨会，如2009年和今年夏天即将举办的验证软件讨论会。

在微软工作的图灵奖得主还有吉姆·格雷（Jim Gray）。1998年因其在“数据库和

交易流程处理（Transaction Processing）研究领域的开创性贡献及在系统实现领域的领袖地位”而获奖，2000年、2002年、2006年，他三度参加“21世纪的计算”大会。说起来令人感伤，在他参加了2006年大会、返回美国的一个多星期后——2007年1月28日，他由旧金山出海抛洒去世的母亲的骨灰时失踪。出事以后，包括微软公司、美国政府，还有许多仰慕他的人都想方设法去搜寻他的行踪，但终究无果。至今我还记得这位谦虚的长者的音容笑貌——他的个头在西方人中都算是比较高的，所以在中国与同行们合影时，他经常会主动曲着腿，让自己显得不是那么高大……吉姆·格雷是非常谦和、有着浓郁书生气的大师，对后学的提拔和鼓励，他也不遗余力，哪怕是对刚刚加入公司的员工，也会很热情。我心里一直希望吉姆的失踪不是悲剧，希望有朝一日，他会带着和煦的微笑再度出现在微软。

最后再介绍三位曾参加过“21世纪的计算”大会的图灵奖贵宾。首先是1984年的得主尼克劳斯·沃斯（Niklaus Emil Wirth），他是Pascal等好几种程序设计语言的主设计师。记得我自己上大学时的计划之一就是写一个基于Pascal的编译工具，所以，当他2006年来到“21世纪的计算”大会时，我就像粉丝见到偶像那样激动。

其次是1995年的得主曼纽尔·布鲁姆（Manuel Blum），他分别在2002年和2007年的大会期间造访中国。他与夫人、儿子都是卡内基·梅隆大学的教授，获图的原因是“计算复杂度理论及在密码学和程序校验上的应用”。

第三位是2002年获奖的罗纳德·利瓦伊斯特（Ronald L. Rivest），他和阿迪·沙米尔（Adi Shamir）、伦纳德·阿德曼（Leonard M. Adleman）因发明了RSA公共密匙加密算法而分享了当年的图灵奖。今天，几乎所有的互联网认正都是使用“RSA” 公共密匙方法——其实就是三位学者姓氏的首字母。利瓦伊斯特是2005年“21世纪的计算”大会的参与者。

今年6月中旬，为纪念艾伦·图灵的百年诞辰，美国计算机协会将举办一场“图灵世纪庆典”。尽管距图灵离开这个世界58年了，但他的精神遗产仍在激励和鼓舞着无数的后继者，不断以创新来超越人类智慧与想象力的峰极——肩负着“创造可影响未来的研究成果”的使命，微软亚洲研究院也将为实现梦想而不遗余力。

IT 行业的创新 - 创新的迷思 (一)

“最近关于创新的词汇很流行，比如创新型人才，创新型企业，创新型国家等。在微软亚洲研究院创新工程组的工作中，我看过创新的猪跑，也吃过创新的猪肉，在这里和同学们分享一下我关于创新的体会和思考。这些内容很多都可以从各种书籍中看到，并不是我独创的见解。” ——微软亚洲研究院创新工程中心首席开发经理邹欣

IT <wbr>行业的创新 <wbr>- <wbr>创新的迷思 <wbr>(一)

（图片来自于网络）

本文整理自邹欣和北大同学交流的讲稿,暑期课程-职业规划与领导力发展的一部分

迷思之一：Innovation starts with Epiphany

很多人听到发明创造，就会想起故事书里的聪明人忽然灵光闪现的情景。灵光闪现、顿悟这些词语的英文是 “Epiphany”，顿悟的故事中其中著名的有:

阿基米德在洗浴城里泡澡，忽然他跳出浴池，跑到大街上，大喊“Eureka”，他老人家发现了浮力定律。
牛顿同学当年没事坐在苹果树下，忽然一颗苹果砸到他头上，他也灵机一动，揭示了万有引力等理论。

这些故事很有意思，但是由于种种原因，故事中没有提到这些科学巨人在顿悟之前已经在相关学科打下了深厚的基础，同时他们也为这些问题进行了长时间的思考，这样那些看似神奇的时刻才会光顾他们。这些故事的另一引申是，他们都是独立工作的，没有一个阿基米德团队，或者“牛之队”在背后支持他们。在近代，很少有一个人可以独立完成前无古人的发明创造。让我们看看自己的手机，它集成了几代理论创立、发明和技术工程上的创新：

无线通信: radio waves，location aware – GPS，cell tower，WiFi AP
有线通信: USB
集成电路
显示技术
计算机，应用程序

让我们穿越到牛顿所在的时代，想象如果我们把这些技术的原理，设计图纸都像苹果一样向牛顿头上砸去。他会顿悟么?

在我们熟悉的电脑和IT领域，所有我们看到的很“酷”的产品，它们都是几代人、几个团队前赴后继持续创新的结果。这个过程就像拼图一样，很多聪明人都看出了最终图像的摸样，都在一块一块地拼接，然而往往拼好最后一块的同学得到了最大的荣誉。但是没有前人的积累，没有自己扎实的能力，就没有“最后一块”等着同学们去拼。

另一个有用的推论是，不要一开始就想把所有丢失的拼图块都找到并填上，打造一个完整巨大的创新。

皮特· 德鲁克 (Peter Drucker) 说过:
Those entrepreneurs who start out with the idea that they’ll make it big – and in a hurry – can be guaranteed failure.

我们上课的同学也想了不少宏大的创新思想（例如这个），但是课程最后也没把创新的想法做成，只剩下了一个空的构想。

《梦断代码》是《现代软件工程》课的必读参考书，它讲了一个雄心勃勃的软件项目 (要取代 Exchange/Outlook/P2P软件) 在充足的资金及程序员支持下华丽失败的故事。和它相映成趣的则是Linux项目刚开始的时候:
I'm doing a (free) operating system (just a hobby, won't be big and professional like gnu) for 386(486) AT clones... (source)

这两个故事，连同画扇面的笑话，可以作为大家创新的参考。

迷思之二：大家都喜欢创新

谁不喜欢创新呢? 然而细细想来，创新就是做和以前不一样的事，并不是所有人都喜欢“不一样”。当你提出一个创新的想法时，你会得到什么回答呢？下面是其中一些:

This will never work
No one will want this
It can’t work in practice.
People won’t understand it
This isn’t a problem.
This is a problem, but no one cares.
This is a problem, and people care, but it’s already solved.
This is a problem, and people care, but it will never make money.
This is a solution in search of a problem.
Get out of my office now!
We tried that already
This will never work
We never done that before
This will never work
We don’t do it that way here
This will never work
Not in our budget
This will never work
We don’t have time
Executives will never go for it
It’s out of scope for this milestone
And I don’t know about next milestone…
You’re smarter with your mouth shut!
...

为什么? 我辛辛苦苦想出来的点子，为什么得不到领导或同事的赞赏？这里有好几个原因可以解释:

个人自负/嫉妒:

这个想法居然被你想出来了，老子不能接受

面子或政治因素:

这个东西要如果做成了，我没面子.

优先级:

我已经有十个创新的想法在手头了，不能接受又一个新的创新

安全:

不创新，我没有风险; 要创新，我可能要失去一些东西。

习惯:

这个不是我们做事的习惯啊，不符合我们一贯的原则啊

动机:

What’s in it for me? 我能从中得到什么？我为什么要帮你?

不但大众不喜欢创新，有时连创新者都不例外，甚至有些创新者会恨创新。为什么会有这么强烈的消极反应？听我慢慢道来:

假设你发明了电报，并且花费了毕生精力建立起了覆盖全国的电报网和电报企业。这时有一个年轻的发明家上门推销他的创新产品——电话。

图片来源:http://etc.usf.edu/clipart/77900/77913/77913_telephone.htm

虽然这个早期的电话看起来其貌不扬，它后面还拖着一条尾巴，可是你敏锐地看到，这个创新将会颠覆目前的电报产业，它预示着你辛辛苦苦建立起来的企业将会失去市场，这时你会怎么想呢？会不会恨这个新发明？

从这里我们看到，有些创新是颠覆性的—disruptive innovation。这些颠覆性的想法一旦出现，就会引起现有技术拥有者的极大不安，我们看看工业革命时期几个具有颠覆性创新的例子:

蒂莫尼耶于1829年发明的缝纫机是世界上最早成批制造的缝纫机。缝制速度要比手工缝制快10倍以上，正因为缝纫机器有如此的优越性，引起了制衣店裁缝们的恐惧与反对。“如果机器出现，那么手工裁缝就会失业，一旦失业就意味着饥饿和寒冷来临。”众多裁缝上门找蒂莫尼埃论理，继而发生冲突，在一次动乱中就有80余台缝纫机被捣毁；大批裁缝闯入工厂，武力和愚昧最终占了上风。无可奈何的蒂莫尼埃只好回到安普勒比城，重操旧业仍以做裁缝为生。
贾卡(JACQUARD)1752年出生于里昂，一成年便在丝绸工坊打工，并且很快成为一个有创意的、技艺娴熟的工匠。他的改革计划在法国大革命期间多次中断，但1805年一大批改革后的半自动织机终于在这里运转了起来。新织机不但缩短了产品的成形时间，更重要的是减轻了劳动量，从而减少了工作人数，这些变化必然引起了大批工人的恐慌和随之而来的抵制及破坏。因为使用贾卡织机后，原来需要六名工人完成的工作现在只需一名，这就意味着大批工人面临失业。贾卡多次受到人身攻击，甚至有人对他以死相逼，更为严重的是，工坊里的新型织机不断被损坏和焚烧。尽管如此，革新的成果还是遍及全国，1812年，整个法国已装置了一万一千多台贾卡自动织机。
(源于: http://tran.httpcn.com/Html/1301/94428122124.shtml)

英国织布工人捣毁织布机的例子:
卡特莱特经过多年研究和实践，终于发明了动力织布机，1791年他在曼彻斯特建立了第一座用动力织布机装备的织布工厂，纺织界的实业家以及其他资本家闻讯，纷纷进行投资。织布厂越办越红火规模也越来越大，投资织布厂的股东们，棉纺厂的老板都拍手称快，卡特莱特更是踌躇满志。孰不知，一场风暴就要降临了，新式织布机的使用使许多原来的织布工人失去工作，它们沦为失业大军。而在业工人却被迫随着动力织布机的快节拍大大增加了劳动强度，苦不堪言。一天夜里，愤怒的工人们砸烂了厂里所有的织布机，然后放火烧毁了织布厂。

我在上课时还举了另一个例子，现在大众普遍认为钻石很值钱，并且购买钻石的人也不少。钻石和石墨都是由碳原子组成，如果有人发明了一种在常温常压下把石墨变成钻石的方法，就可以廉价地生产大量的钻石，我们想象在钻石产业链上经营的人们，以及已经购买、储存钻石的人们会有什么反应？会非常喜欢这个创意吗？

迷思之三：好的想法会赢

学习理工科的同学都是比较理性的，他们认为好的想法当然会赢啦。就像解数学题一样，好的解题办法当然会得高分啦。如果我能找到好的想法，我的好主意一定会把现在不太好的主意都比下去。

但是在现实中，好的主意不一定赢。

例如我们目前普遍使用的电脑键盘，我打赌99.9%的键盘都是这样的布局(QWERTY):

但是很多研究认为下面的键盘布局(Dvorak)更有效:

并且还有数据支持:
如果使用QWERTY键盘，只有10%的英语单词能在手指不离开Home Row (ASDF的那一排)的情况下可以敲出来。但是如果使用 Dvorak 键盘布局，你可以在home row打出 60% 的单词（所有的元音都在home row）！这样就会减轻手指和相关肌肉的负担，减少劳损，同时加快打字速度。

那么这么好的键盘为什么如此少见，为什么大家都不用好的键盘布局呢?

大家可以讨论一下，为什么会是这种情况。

注: 据说QWERTY键盘的设计是因为机械打字机的打字臂由于相邻字符的原因而互相碰撞，因此要把经常一起出现的字符分开，这样才能减少碰撞几率。但是后来出现的打字机都抛弃了机械打字臂的设计，最终演变为球形字模打字以及后来的电子打字、计算机键盘。这个时候原始布局的设计反而成为了一个问题。

另一个例子是国际标准衡量制度 (米/千克) 和英制衡量制度 (英尺/磅) 的使用对比。后者只有美国（大概还有利比亚、缅甸）还在使用。事实上美国国会早在两百年前就通过了法案，要推广国际标准衡量制度，但却迟迟没有行动。

一个很重要的原因是，和行动相关的各利益方都在考虑：我能从中得到什么? What’s In It For Me (WIIFM) ? 如果这个问题没有搞清楚，那再多的好想法都只会停留在口头。

国内的一个例子是“火车票实名制”的实施，大家都说这是一个好主意，技术上有困难么? 对于一个可以成功发射登月飞船，可以用GFW把中国的互联网变成一个局域网的国家，火车票实名制在技术上其实不难。但是对于掌握政策的制定、实施、运行及维护的人来说，他们都在心里问：WIIFM？(我能从中得到什么？) 在没有好的答案之前，这个“好想法”是不会得到彻底实行的, 即使号称实施了, 普通用户也未必能得到他们想要的好处。

不同的人想从发明创造中获得的东西也不一样，十九世纪30年代, 英国科学家法拉第发现了电磁感应的原理, 一个政治家狐疑地问他, 这玩意究竟有什么用。法拉第回答：先生, 我不知道它有什么好处, 但是有一件事我敢肯定，将来有一天你一定会对它收税的。

那怎么样才能让别人喜欢 (至少不痛恨) 你的创新呢? 在我们提出一个创新的想法时，应该考虑这么几点:

Provide “what’s in it for me” for stakeholders 对利益相关人要讲清楚 “你能从中得到什么”。
Relative Advantage (创新和目前的应用相比，有什么相对优势)
Compatibility (创新和目前的应用是否兼容)
Complexity (避免过度地描述复杂的技术)
Observability & Trialability (能让别人看到/实验创新的结果么? )

另外，大家时间都很紧张，你能否用很简明的方式把你的创新描述出来？同学们在 <现代软件工程> 课程上实验了NABC的方法，大家不妨一试。

迷思之四：创新者都是一马当先

大家听了很多创新者的故事后，有些人会想，这些创新者真了不起，第一个想出了这些美妙的想法，要是我早生几十年，也第一个实现那些想法就好了。

其实，大部分成功的创新者都不是先行者，例如搜索引擎Google是很晚才进入这个领域的。例如APPLE的音乐播放器iPod，它是2001年10月23日发布的，在它之前音乐播放器市场已经有很多产品了:

1997: first PAD released
1998: Rio
1999: PJB-100 has 4.8 G HardDrive
… creative labs… and many more
2001-10-23: Apple released iPod， 5G
2002: Archos released audio/video player

iPod 出现后的几年时间里，它甩开了对手:

另外，Gmail、Google Calendar都不是该领域的第一个产品，当Gmail、Google Calendar发布的时候，世界上大部分有email的用户都至少有两个免费的email/calendar服务，比如Yahoo Mail、Hotmail。有了以上免费服务，谁会需要第三个免费的账户? 但是后来者在很短的时间内赶上并超越了先行者。下面是2006 年的美国市场数据:

在讲市场竞争的时候，人们喜欢用下面这样一些词汇:

First Mover，First Mover Advantage (FMA)
Second Mover，Second Mover Advantage (SMA)

有些时候, 有些一马当先的公司最后也失败的很快。例如小灵通的兴衰、VCD在中国创新和衰退的故事等。

下面是一些IT行业的一马当先者，和最近的市场领头羊:

Personal Computer:

First Mover: Altair (1975)
Market Leader: Dell (2006), HP (2010)

Word Processing Software:

First Mover: WordStar (1979)
Market Leader: Microsoft Word (2006)

Web Browser:

First Mover: Mosaic (1992)
Market Leader: Microsoft Internet Explorer (2006)，但是从2006年以来，出现了很多强有力的竞争者。现在很难说谁有绝对的优势。

Internet Search Engine:

First Mover: Excite (1993)
Market Leader: Google (2010)

MP3 player

First Mover: Rio
Market Leader: iPod

Online Bookstore

First Mover: Books.com (多好的域名，可惜这第一家网站没能成功)
Market Leader: Amazon.com (2^nd mover)

Personal Finance Software

First Mover (unknown)
Market Leader: Intuit (the 47^th mover)

这里要提一下的是Intuit这个公司，它在刚成立的时候，创始人分析了市场上所有个人财务软件，发现已经有46家公司销售类似产品，他们自嘲说他们有47^th Mover Advantage。结果就是这第47个竞争者最后成为该市场的
老大，打败了包括微软公司在内的诸多对手，微软在2009年宣布停止其个人财务软件Money项目，退出这个市
场。

研究员介绍
IT <wbr>行业的创新 <wbr>- <wbr>创新的迷思 <wbr>(一)

邹欣：微软亚洲研究院创新工程中心首席开发经理，主要负责研究成果向产品转化。他于1996年加入微软公司，前后参与了Outlook、Product Studio、Visual Studio等产品的开发工作。他利用业余时间写了《移山之道——VSTS软件开发指南》（2007年）、《编程之美——微软技术面试心得》（合作，2008年）。他还在清华大学、北京航空航天大学讲授“现代软件工程”课程。邹欣于1991年获北京大学计算机软件专业学士学位；于1996年获美国韦恩州立大学计算机软件专业硕士学位。

相关阅读：
技能的反面——魔方和模仿
如何花两年时间面试一个人
暗时间
书写是为了更好的思考
___________________________________________________________________________________

欢迎关注

微软亚洲研究院人人网主页：http://page.renren.com/600674137

微软亚洲研究院微博：http://t.sina.com.cn/msra

学习密度与专注力

编者按：读者是否有过这样的体会，当专注于自己正在做的事情时，几乎忘记了时间和外界环境变化，似乎达到了所谓的“物我两忘”的境界。专注，是种体验，更是良好习惯之一，可以帮助高效率的完成一件事情。其中原因何在，以及如何获得专注力，作者刘未鹏在文中谈了他自己的观察和思考。

作者：刘未鹏

我虽不赞同李阳英语的学习方法，但对其一句话印象比较深刻，大意是说许多人学了快10年的英语，其开口的时间还不如在集训的七天内开口的时间长。也就是说，尽管学习时间很长，但学习密度极低，结果乘起来还是低。其实这种情况不仅存在于英语学习中，而是一种普遍的现象。人太容易为各种各样的事情分心，要集中注意力做一件事情是非常难的，而正因为难，少有人做到，那些做到的，就都变成了牛。学习密度与专注力

其实，在大学期间，最不缺的就是业余时间，最缺的就是专注精神，非凡的注意力造就非凡的专家。而生活中太多的分散注意力的因素：游戏、篮球、选修课、女朋友… 要想集中注意力对一个单一的目标猛下功夫，其实还是相当有难度的。这个难度并非来自自制力，如果一个人要靠自制力去强迫自己不受干扰，那只能说还是寻常人(mediocre)。真正的效率源自于内心对一个东西强烈的热忱，也就是我们俗称的追求，这时候从表层意识到深层意识都关注在这件事情上面，脑细胞高度活跃，才能创造最大的效率。为什么作诗的时候要趁着酒兴，就是因为少了这种狂热的专注，效率就低下了，一首诗作个好几天顶多是个平庸之作，跟交家庭作业也差不到哪去了。很多人正是因为缺乏专注，所以虽然也和别人一样过来了大学四年，实质上四年里面利用的时间无形中少了不知多少。

专注力为什么会对学习效率造成这么大的影响。这来源于两个方面，一是专注于一件事情能让表层意识全功率运作，这个是显式的效率。第二点，也是更重要的，它还能够使你的潜意识进入一种专注于这件事情的状态。有过连续几天乃至一周或更长时间思考同一个问题的人想必都有一种感觉，就是在这个思考的期间，有时候虽然表层意识因为种种原因不在思考这个问题了（比如睡觉，比如被其它事情中断），但潜意识层面仍然保留着其“惯性”，也就是说，潜意识层面仍然在做思考的努力，从而虽然表层意识被其它事情占据，但潜意识仍然将时间无形中利用起来了。这种无形中的时间利用日积月累可以产生宏大的效应。

关于后一点，著名的例子有我们熟知的那个睡觉中想出苯的化学分子式的老大。非著名的例子有老爸告诉我的两个事情，一是他在20岁左右，组装村子里第一台电视机的时候，装到最后关口，电视机总是不能工作，苦思冥想一整天不得要领，结果睡到半夜突然从梦里醒来，想到了答案，连夜就把电视机装好了。还有一次是妹妹拿一道高中数学题问他，也是想了一天多没答案，结果睡午觉的时候想到了。这些都很好的证明了潜意识能在你觉察不到的情况下产生效率。另一方面，潜意识也能在你觉察不到的情况下干扰你的注意力，我们平常就有这样的经验，一个球迷即使在表层意识专心工作的时候也会不知为何突然想起比赛的事情，一个焦虑某件事情的人即使在做其它事情的时候也会被突然涌上来的焦虑打断。也就是说表层意识在关注一件事情，但潜意识却在关注另一件事情，并且时不时来打扰表层意识，从而影响注意力和效率。所以，如果表层意识和潜意识都能专注同一件事情，也就是俗称的完全投入，这个时候的效率就能翻倍。此外这种专注成了一种习惯之后，就容易在很短时间之内把自己的潜意识带入到一种关注的“惯性”中，于是即便表层意识的注意力已经移开了，然而潜意识仍在继续关注原来的问题。比如你可能有这样的经历，学习一首歌曲，一开始的时候并没有完全学会，然后你就去忙别的事情了，一个星期之后想起这首歌曲，居然发现原来难学会的几个地方突然会哼了；或者思考一个问题，一开始的时候总有一个地方没有思考出来，然后你就先放着了，几天之后回想这个问题，突然发现一切都清晰了。这就是潜意识的效率，它能在你不知不觉中把时间利用起来。

仅仅了解专注力的作用不够，如何获得专注力才是更重要的问题。跟人身上的其它特质（性格、心态…）一样，专注力也是一种习惯。一个习惯于专注事情的人不管做什么事情都容易并迅速进入一种专注的状态。既然是一种习惯，就能够培养，金出武雄在《像外行一样思考，像专家一样实践——科研成功之道》里面提到“思维体力”的概念，所谓思维体力就是能够持续集中注意力的时间，注意力造就非凡专家，天才来源于长期的专注的训练。培养你的思维体力，是成为非凡专家的一个必要条件。除了培养专注的习惯之外，还可以通过另一个充分条件来实现专注力，即做自己喜欢做的事。我们从小对自己喜欢做的事情都是极其专注的，当然，即使长大了之后，仍然还是某种程度上保留了这种专注的能力，只不过因为种种外界因素，长久专注的能力反而削弱了，要考虑房子，要考虑业绩，要考虑小孩…这些让人焦虑的事情会积压在潜意识当中，总是在影响你专注做事，削弱你人生的效率。卡耐基用一整本《人性的优点》来介绍如何克服焦虑，可见焦虑的负面影响有多大。要使自己能像小的时候一样对喜欢的事情投入最大的专注，除了克服焦虑的负面影响之外，还有另一个条件就是不能放弃，2006年的奥斯卡独立电影《阳光小美女》上，Frank在码头说的那段话：

普鲁斯特是个法国作家。彻底的失败者。一生没工作，情事不断还是个同性恋。花20年写了一本没几个人看的小说。但他也许是莎士比亚之后最伟大的作家。晚年回首人生，他发现那些难熬的日子才是一生中最好的时光，因为那些日子造就了他。而快活的日子全是浪费时间，没有任何收获。你想一觉醒来就到18岁，觉得这样可以跳过高中时期的痛苦。但高中是你一生中最重要的苦难时光，你不可能经历比这更好的苦难了。（这段翻译来自卓别林的博客）

多好的心态啊。什么是黄金心态，这就是。其实过来人你我都有这样的体会。此外，如何不让生活中其它细节干扰也是一个重要的因素，除了那些你焦虑的事情之外，还有诸如收拾衣服、打扫房间、清理书桌、接孩子回家、瑜伽等等；对此史蒂芬柯维在《高效能人士的七个习惯》里面提到的第四代时间管理法则，即要事第一（指重要但不紧迫的事，即长远积累会对你今后人生产生重大影响的事）法则就非常有效。关注有两种关注法，主动关注和被动关注，许多人对琐事错误的采取了主动式关注，比如常常回到家就开始想“今天还有哪些事没做完”，实际上，让这些不重要的事情自己来找你就可以了，即中断式被动关注，后者可以防止空转轮询浪费的时间，从而把最集中注意力的时间利用在最重要的事情上。

作者介绍：刘未鹏，微软亚洲研究院创新工程中心研发工程师，Mindhacks帮主，在这块自留地上笔耕不辍了八年。他从2003年在《程序员》杂志上发表第一篇技术文章，并开始在CSDN写技术博客。起初的博客较短，也较琐碎，并夹杂着一些翻译的文章，后来才慢慢开始有了一些自己的心得和看法。八年来，虽然平均每个月写1篇或者更少，但他从未停止。写博客这件事情，给他带来的最大体会就是，一件事情如果你能够坚持做8年，那么不管效率和频率多低，最终总能取得一些很可观的收益。而另一个体会就是，一件事情只要你坚持的足够久，“坚持”就会慢慢变成“习惯”。并且于2011年6月，一本刘未鹏八年博客文章精选而出的文集《暗时间》出版。他说：“善于利用思维时间的人，可以无形中比别人多出很多时间。”这里的“思维时间”，即他所谓的“暗时间”。

------------------------------------------------------

欢迎关注：

微软亚洲研究院人人网主页：http://page.renren.com/600674137

微软亚洲研究院微博：http://weibo.com/msra

Michael Jordan在“21世纪的计算大会”上的主题演讲：大数据的分治和统计推断

【Michael Jordan博士在主题演讲的照片】

【Michael Jordan博士主题演讲：“大数据的分治和统计推断”的全程视频】

【Michael Jordan博士在主题演讲中展示的PPT】

演讲人：Michael Jordan博士

美国加州大学伯克利分校电气工程与计算机系、统计学系教授

美国科学院（NAS）、美国工程院（NAE）、美国文理科学院（AAAS）院士

演讲标题：Divide-and-Conquer and Statistical Inference for Big Data

以下文稿来自现场翻译人员速记，仅供参考：

非常高兴能够来到这里。这是我两个月以来第二次来中国谈大数据了，确实大数据在全球都引起很多的共鸣。但是在这个领域我们还需要做很多的事情，如果你现在决定来研究大数据这个问题，一切都才刚刚开始。今天我主要会介绍有关大数据的重要的概念和与它相关的非常与众不同的事情。

一．什么是大数据的现象？

Michael <wbr>Jordan在鈥21世纪的计算大会鈥澤系闹魈庋萁玻捍笫莸姆种魏屯臣仆贫

科学的发展带给我们庞大的数据可以被用于经典理论的检验和实验科学中。我们经常谈的粒子科学研究、物理学研究、基因学研究、都给我们带来了大量的数据。对人类行为的测量，特别是互联网行为的测量能够被用于个性化发展和开辟新的市场。还有我们所说的传感器的网络，这就是大数据的现象。到底值得我们思考的问题是什么？是不是只是“大”，大数据是否指的是更多的存储空间、更多性能，这能够解决这个问题吗？我觉得不是这样的。

二．什么是大数据问题？

在我们看来，计算机科学经常谈的是对资源的管理。最典型的资源就是时间、空间、能量。数据在以前并没有被认为是一种资源，而是被认为是一种使用资源的物品。但是，我们看到现在的数据已经被认为是一种资源，这是我们可以利用并从中获得价值和知识的一种资源。我们将数据资源同我们所用的时间、空间资源结合在一起形成一个系统，从而使我们做出适时的、节约成本、高质量的决定和结论，因此我们必须以不同方式进行权衡。但是数据资源和时间、空间资源有很大的不同。如果我给你更多的时间和空间你会更开心，但是数据却不是这样，并不是给你越多的数据你就会越开心。就像是你走进一个公司，问他们你们最大的问题是什么，他们通常会说最大的问题就是数据太多了。目前来看，越来越多的数据会给我们带来越来越大的麻烦。因此我们必须找到一个解决这个问题的办法，一种是统计学的方式，另外一种是计算的方式。统计学方式可能更微妙，所以我们等一下花更多时间在上面。

1. 对复杂性的疑问比数据增长的速度更快；

一些数据科学家他们经常谈，在一个数据库的表格中行代表人，而列是对人的特征记录，基本的数据库可能会有几千个行——意味着有几千个人的信息在一个数据库里，然后你再收集每个人的基本信息，并不需要太多，比如个人的年龄、地址、高度、收入，这些数据足以让你了解在这个数据库中的每一个人。

现在我们来考虑数百万的“行”，因为我们确实对每个人的个性和细节十分感兴趣。比如说你是在天津居住，你喜欢迈克尔·杰克逊，你喜欢骑自行车，那么你患某种疾病的概率是多少等等，我们在数据库中都有关于你的信息。所以我们看到有关人数的行数在不断的增加，同时描述也更多，那么列数也在增加。有些我们还可以添加一些列，比如说这个人昨天吃了什么，他的音乐、读书的偏好，还有他基因的特点等。但问题是我们不光对个人的列感兴趣，我们对列的集合更感兴趣。如果你生活在天津，你喜欢骑自行车，你最喜欢吃的水果是苹果，这些都是具体的这些列的信息集合。

现在问题就是我们需要指数级的列和行增长的组合方式，随着行数和列数的线性增长，我们考虑的数据就会呈指数倍的增加。我们来举一个医学方面的案例，把列设想成肝病的信息——1是有肝病，0是没有肝病；但是有一些列所描述的情况能够很好地预测肝病的发生。假设如果你喜欢在天津，喜欢骑自行车，喜欢吃香蕉，这样的人就会得肝病。如果你这个时候去看医生，医生问你住在哪里，你说天津；医生问你周末做什么，你说骑自行车；问你最喜欢吃的水果是什么，你说是香蕉，那么医生就会告知你需要检查一下肝脏。这当然是个假设。任何指令集里面都需要看这些数据，进行论证，找到有意义的模式。但当数据变得越来越大，找到有意义的模式和信息变得越来越难。所以，大数据并不是非常好的事情，并不是有更多的数据就会获得更多的知识。大数据其实才是最大的麻烦。现在来看数据越来越难转变成知识，如果我们想要获得真正有意义的东西，我们需要采取一些行动。我们统计学家非常担心：我们应当如何消除噪音，真正得到里面所含的知识。统计学上的程序和算法，必须运行在计算机上，。大的数据会花更多的时间运行，使我们不能快速的做决策了。真正有大问题的时候，我们不知道如何解决和运行统计的程序，做出快速的决策，因此我们发现了第二个解决方案。第一个是统计学上，第二个是计算方面。

2.大数据会导致在可接受的时间范围内复杂算法不能够运用

第二个就是计算方面，算法需要时间运行，还要登录、输出等，需要几秒钟的决策，比如在线的拍卖需要几秒钟做决策，我们还需要给予一些数据，比如说输出的算法。当数据变多，这种方法可能会完成不了，或者是需要很多的运行时间，这是时我们要怎么做？要把这些数据舍弃掉吗？舍弃的结果是什么？可能使我的数据库空间增加，如果我不断地删除我的数据。我应当让数据运行慢一些，但是这样就会使处理的时间过长。我们面临很大的问题，我们将时间、空间与数据、不断增长的数据规模结合在一起，如果没有很好的处理这些大数据的扩展算法。这确实是一个存在的问题，我认为这个问题是根本且基础的。

三.最终的目标

从理论上来说有这样终极的目标：给定一个可以推理的目标，同时确定固定的计算时间，提供由算法和分析支撑的保证，按小时、分钟、秒进行计算，推论的质量将会随着数据的精确性而单调递增，并且是没有边界的无线增长。随着数据无边界的增长，遇到很大的麻烦，我们每一代人都需要面对。我们想一次解决，有什么样的办法可以推理积累的大量数据？需要花时间解决，这可能需要几十年才能解决。

四. 自下而上：将算法原理和统计学的推论完美地地结合在一起

我们看一下目前的进展。其中一个就是自下而上的办法，将算法原理和统计学的推论完美地结合在一起。这些算法原则上来讲，可以放在一个环境当中，我们选一些分治的方法来解决。这些难题，我们聚合起来，聚合的越多，这些错就越少，更好做一些。然后分开相互之间相互矛盾的数据，包括统计数字，还有计算机科学的数字，可以避免带来很大的麻烦。然后再回到我们理论上的问题，如何进行权衡，提高我们计算的效率。

1.大数据引导程序（The bootstrap）

首先第一个问题，我们叫做大数据的引导程序，我们在伯克利几年前做过这样的工作。这个引导程序能够解决一些非常重要的问题——评价推论的质量。很多有学识的研究者并不太关注推论的质量。输入数据到一个盒子里面，然后得到一个答案，是9.5。但是多数的决策并不能满足要求，要知道9.5里面的差错率多大？如果这个数字超过10的话，就要把肝切掉了，如果是9.5的话还可以。所以，这是真正的9.5吗？还存在很大的误差吗？或者是没有超过10吗？如果真正做出真实的决策时，是没有误差这个栏的考虑，但是计算机科学家们需要对这个有很深的了解。所以我们要进行工作，能够在数据库的社区里面建立一些数据库，能够输入，然后再输出，同时有一个非常清楚明白的误差栏。

现在让我们进入到另外一个领域，进入到统计学里面怎么样呢？很有意思的一点就是在非常简单的事情上，我们抽样，根据有相关的公式，可以通过这样的途径进行了解。比如说我们根据抽样里面的差异性，加上知道差错率，如果不讲差错率，有一个中等的情况，比如说10.2，那这个误差是多少呢？并没有这样的公式在里面。我们怎么知道一般情况中存在的差异性？我们有一个通常叫做的程序框架，能够应对快速扩展的大数据，并且计算误差率。

到底推断的质量如何？我们观察的数据包括机器的误差率和基于数据进行参数的预测。我们叫做形成一种参数的预估值。就像一条程序、一个黑匣子，到底有多少的误差在里面，这是我们所关注的。通过对程序进行计算，了解数据指标情况，如果想做一个理想的统计学家的话，还要对它进行科学的定义。

所谓的频率主义者，每一个数据都会要计算中间的情况，还有一些预估估算，不同的数据级进行浮动，你看浮动的范围就带来这种所谓的误差率。从这个定义来说，这个误差率是什么，误差率就是指你还需要更多的时间分析这些数据。如果你没有大量的数据，你不能够对这些数据进行一次又一次的检验，并同时看他们之间的浮动。如果没有一个数据集的话，就可以一次性去做，看看生成的情况，我们只有一个数据集。

我们设想一下，如何分析这些问题，解决这些问题，即使只有一个数据集。这些数据来自什么地方，有这样的一些群体，比如说在我们这里生成一些数据，有一个曲线可以反映出相关的群体。如果是一个一般不存在的东西，上面有一个幻灯片，可以形成一个数据集，两个数据集，对每个数据集进行计算，你所在意的都是一些数据的预测，然后得到一个公式。可以做计算机的并击处理，生成一个数据的处理，每一个计算机可以进入一个预估值，然后可以在估算当中产生一些误差。然后这个里面我们没有多个数据级，我们不能这样去做。我们观察有一个数据来自这样的群体，然后这些数据不是列出来的数据，这些数据的分布图是分布式，可以生成越来越多的数据。这种分布尽管不可以换，但是你可以从中抽样。我们叫做近似值，基本上是真实的。

所以说，这是非常微妙、深层的理念，拿过一个数据级生成多个数据级，这个叫做引导程序。1979年的时候拿到的一个大奖，这里其实是非常简单的理念。尽管1979年还没有云的语言等，也是可以这样做。你可以用于任何的查询上，为什么不把所有的数据库从云上取样，听起来是非常好的理念。但是，这可以在我们计算机科学里面有更加好的应用。我们的一些数据在服务器上已经分布了，如果重新抽样，数据级拿过来，从里面进行抽样，得先返回去，再回到这个地方。意味着什么呢？从这个上面进行取样，讲的更清楚一些，就是基于终端的数据，这是一个分布式的，可以从任何一侧进行取样。比如说从一天当中这个数据发生的时间当中取样，同样一个大的数据级可以做一次，然后反复的做，这又意味着什么？如果这样取样的话，从其中一个点上分布，可以得到其中一个点，然后按比例的高度划分，我得到这一点，再次做一下，可以获得同样的点。做N次，在某些点上可以得到很多次。这跟我们取样和替代一样，把一个样品拿过来然后再返回去，反复地做。

我们经常描述，把最初的数据拿过来重新取样，然后做很多次，就是所谓的引导程序。数据点上有替代，可以做数学计算，0.632次，如果有这个取样的话，就有632个。不能做这么大，这是我们主要的程序，在随意的预估上，可以达到引导程序，已经超越一些小数据了，这是可能会带来的一些问题。

2.二次抽样（Subsampling）

还有另外一个方面，就是统计学家们做的。他们需要有竞争力，出现另外一个程序的话，它也可以来解决，叫做二次取样。二次取样跟以前一样，进行一个取样，在这个里面可能太大了，我们用一个子抽样，或者再次的抽样，进行一个划分。我们很快的到预估值上，在这个B点上得到9.5的数字，我可以再次去做，把B点从N点里面取出来，可以做很多次。我们可以有多少的估算值，还有这样的浮动，听起来很好，一个数据级，我得到各种估算值，问题就是是否正确。因为B点，预算值大小取决于N点的数量，这个取样是来了解这些误差。我们可以有这样的浮动，规模不一样的，尺寸大小不一样，错就错了。所以不能进行二次抽样估算得到答案，这个答案是错误的。

这里关键问题产生了，这个比例是错了，这个值太大了，因为这个数据级太小了。我们重新设定他们的尺寸，这样一个比例怎么进行设置？一般不知道怎么做。对于像一个黑匣子一样，在数据库里面放一些东西，用户定义的功能，就不知道它的尺寸多大，然后还有一定数量的数据点等，这也是一个问题，你必须要从理论上针对每一个黑匣子去做。更加严重的问题是，如果在现实中使用的话，如果是工程上的默认，这里有一个例子，50000个合成数字，我们还有一些计算，我们用合成的方法做，知道真正的Airbas是什么，这是我们做的结果。再强调一点，这里并没有任何二次的抽样，只需要1.5次的工作，就可以进行取样。

这里误差有一个核算，我们有合成的数据。X轴上看到的时间，运行的是二次取样，不同的取向，还有y轴上，你可以看到0.5在这个上面，这个误差是很坏的，这个蓝色的点是一个蓝色的程序，这是Bootstrap的对象，可以很快的稳定走下来。我们可以来把这个误差变成0，然后我们可以进行平均，在这个上面，并不是要达到Bootstrap，在合理的范围内，我们达到6，这个还是有问题的，然后在7、6.8，然后在绿色的线下面，他们更有效的使用我们的引导程序，引导程序的效率是很高的。它也是有一个N的融合。这个B是一个最中心的限制，我们感到很惊讶，就是在80年代论证的时候。

对于这些我可以看到非常好的结果，现在的0.9是这个浅绿色又出现问题了，它还重复出现，但是这个值我们还不知道，我们知道这是真实的地方，正确的价值，但是现实当中我们是无法知道的。工程师的一些方法有的时候是做不到的。

3.新流程的小“自助包”（Bag of little bootstraps）

我们还有另外一个理念 “小自助包”，我将会讨论新的步骤结合引导程序和二次抽样，并且运用他们最好的部分。同小部分的数据一起，比如说二次抽样和同样适合分布式计算平台。但是，与引导程序相同，它并不需要分析的部分，所以想到一些理念，我们的Bootstraps运行40多年了，统计学家不会有任何的程序上的担心。

再回到这个图片，我们还有真实性，还有数据级，还有一个Size B，进行重新的取样。现在我们注意到这个Size B的数据是来自于周围的一个步骤，他们还是间接的来自下面一个真实的情况。我们继续看我们的子集，图片看上去不太好，现在的N不是10，想一下预估值和估算值也是非常好的近似值。然后不要考虑这是否是真实的，你现在面临这样的世界，你是一个大家伙，这是你真实的情况。你可以进行抽样，基于我们的B点，它是一种分布，你可以来去抽样，按你所需要的次数，多少次都可以，只要能想到的。你把这个对象拿过来，然后你可以及时的进行抽样，现在在正确的比例值上，有合适的数据级是需要的。其中很多点会重复很多次。

然后我们多次的对它进行取样，在某些点可能完全不做，然后我们有B点，觉得它非常小，我们觉得它是分布式的。我们有一个非常好的叫做B取样的分子级，我不想去分析它，尽管这是一个本地的网络，但是也不会把它分散。所以每一个B点会多少次被二次取样，这些数据在什么地方，我们可以把这个放在原来的基础上，我们可以做多次的事情，再做引导程序，这样的话，我们把子取样进行引导，有一张图作为我的总结。

这个流程比较复杂，你把B取样的一个子样，然后放在一个数据级上，然后又替代一段时间内，你获得的值，因此上面是一个处理器，它有一个引导程序，我们为什么不用一个框进行解决问题呢？他是一个比较小的取样，它是正确的，但是有很多的噪音，我们必须要平均。所以必须需要多个框，可能需要200个处理器都执行同样的一个计算的流程。那么，他们可能都会有一个平均的错误率。

这是有效的，首先回到一个TB的问题，N=N的6次方，比如说我们子样数据级的大小是4GB，而再次取样的数据级别也是4GB，那么这张图和刚才那张图是一样的。就是在一个数据集上，加大计算机的利用率。如果在真正的分布式的计算环境里面做，我想应该是0.5TB，会在一个大的数据库里会发生什么呢？我们看一下引导程序，不可能进行并行化，我们使用并行计算，通过机器学习，做第一个再取样，再做一次，然后再并行计算的计算机上进行Bootstraps计算，大概15000秒的时间获得一个合理的答案，对于应用来说稍微有一点慢了。所以我们现在怎么做？我们有一个算法。对于0.5TB的数据，放到所有本地的200个处理器上，也就是说这个红点的位置，然后再取样，再做引导程序。我以前在机器学习方面，我不可能有这样的图做出来，只是20%、30%的完善。这却改变了并行计算的方式，我们可以进行非常大型的一种引导程序，我们现在可以在数据库中做，我们正在开发关系型的数据库当中。

五. 自上而下：凸松弛（Convex relaxations）提升统计和算法的效率

非常幸运，第二部分是一篇论文的内容，主要是理论化的结果。比如说这个结果的一致性，那么还有引导程序的理论，那么就像常规的引导程序一样，都会达到一些限值，是我最近做的研究，非常抽象化，这是非常新的研究，我们还没有机会做论文，因为我们这一周还在做这样的研究。所以这是一种我们所说的内容，我们看一下这个研究哪个地方是成功的。这个是从上至下的计算，统计学的利弊权衡，什么意思呢？我刚刚部分的谈到了这一点，我们对数据计算的理解，也就是说更多的数据需要更多的计算，更多的计算能力。我们如何来做？到底是并行处理？还是子样抽取等等。你给我更多的数据，我会更高兴，因为我能够获得更高的准确度，我的错误会更小，我会以更低的成本获得更正确的答案。对于统计学家来说这是好的，但是对于做计算的来说这个不大好，因为我们将这样思考这个问题。也就是说给我一些数据，那么我们有一个新的观念，叫做控制的算法弱化，比如说我的数据量不够，我可以快速的处理它。数据太多，我的处理速度会慢下来。从计算角度来说，控制的算法能够让我更快速的处理数据，也就是算法的弱化。统计学的角度来说，能够处理更多的数据，获得更好的统计学上的答案性能提高。尽管计算的预算成本不变，但是我们能够处理更多的数据，以更快的速度，我们付出的代价就是算法的弱化。

那么，这个坐标你们不经常看，横轴指我们取样的数量，纵轴代表的是运行时间。我们看一下到底有多少的错误。我们现在就要思考固定风险。比如说在我们错误率是0.01，这个座标的区域，对于统计学家来说，如果要固定风险的话，那么必须有一定数量的样品，才能够获得这样的结果。所以，这是一个叫做典型的预计理论，大家都非常了解。同样对于在计算机科学方面，我们有所谓的负载均衡的概念，不管你有多少个样本，但是你一定要有足够的运营时间，否则的话，你是无法解决这个问题的，这是非常明确的一点。

所以，我们看一下实际的算法。有一定的运行时间，有固定的风险，在右边使用的所有算法，把算法弱化，我们就可以处理更多的数据。下面我来谈一下，这就是我们所说的问题降噪，所谓降噪就是在数据方面有一些属于制造噪音的数据。我们如何做降噪？首先，我们假设可能的答案是X这样的一个分样，然后用高准确度覆盖它，所以这是一个推理预估的过程。比如说我要找到X的值，它和Y是非常相似的，这是一个自然的预估。现在X是一个非常复杂的值，我无法做，所以我要做一个凸形的值域，我要做定性，同时可以获得最优点，我需要把它放在一个可行的规模大小之内，那么也就是任何一个固定风险都是基于X的。左边是风险，我需要它的一半，这里存在复杂性，如果想知道更多的复杂性，你们可以看一些所谓理论处理方面的文献，你们可以读一下，来做这样均衡的曲线。

我们看一下相关的内容，如果你要达到一定的风险，你必须要有一定的取样点。这是一个C，也许这个C也是计算方面很难算出来的，所以我们需要做C子集的，把这个子集进行弱化，这样我们就可以更好的计算了。我们可以做分层的层级，我们称为池域，并且根据计算的复杂度进行排序的。同时，还有统计学的复杂性，然后进行一个权衡。你们可以从数学计算出这个曲线。在这里举个例子，比如说X，刚才已经有人介绍过子集是什么意思，然后你们可以定运行时间，还有取样的复杂性，然后可以算出答案。你们看一下简单的C，复杂的C，然后你们看一下运行的时间是在下降，复杂性是一个恒值，这样你的算法更简单，可以用于大数据，既不会不会增加风险，也可以在举证方面更加简化。如果是一个信号的图值，你的运行时间由PQ值决定，你们还有一个域值的话，我们会有一个恒定的取样，大家可以同时按照“列”计算，获得我们预期的准确度，而运行时间不变，大家可以自己看这些公式。

那么，这种分析我希望大家能够记住的是和这种理论计算科学，重点就是能够把准确度放到一个水平。因为我们要去关心有关质量方面、统计学方面的风险，计算科学方面的算法能够帮助我们解决比较大的问题，就是大数据带来的大问题。同时，我们还有很多的数据理论可以适用，我们不要从统计学简单的角度来考虑，而是从计算的角度考虑。

六.结论

那么，到这里差不多就要结束我的内容了，下面我们来看结论。我们希望大家能够记住，我们在去开发这些计算体系时，不管是软件、计算，其实都是在谈大数据分析的概念性，什么时候出现问题，我们如何达到高准确度，这只是这个问题的开始。其实作为一个计算科学家，我们经常会遇到很多的问题，有些是统计学方面的问题，但是我们没有联合统计学家一起考虑和解决这些问题。因此，我知道我刚才讲的非常技术性，也许你们还要去学一些统计学方面的基本理论，当然如果你们是学统计学的话，你们也要参加计算机科学的课程。对于两门都学的人，你们应该把这两个学科放到一起思考，不是统计学家只考虑统计学，计算机科学家只考虑计算机方面，我们需要解决统计学方面的风险。因此，我们可以更好的处理十万个采样点，都不会遇到问题。

实际上，在教授学生做这些的时候，我们还不是做得很好，我们有各种各样的课程，我觉得你们可以自选一些课程。如果你们是计算机科学方面的学生，你们也可以上一些统计学方面的内容，我们可以融合起来，这才是我们的未来。谢谢！

_________________________________________________________________________________

欢迎关注

微软亚洲研究院人人网主页：http://page.renren.com/600674137

微软亚洲研究院微博：http://t.sina.com.cn/msra

John Hopcroft在"21世纪的计算大会"上的主题演讲:"计算机科学的新方向"

Jeannette Wing在"21世纪的计算大会"上的主题演讲:"人机间的信任理论"

订阅：博文 (Atom)

关注Linux 及系统架构

页面