2012年11月30日星期五

语义网是给人用的

语义网是给人用的

这个题目好像是废话。不是给人用的,难道是给机器用的?

不幸而言中。

语义网研究的早期(其实现在还有不少人),有种看法,就是传统的Web是给人读的,而语义网是让机器来读网页,”Machine Understandable”。例如,Tim Berners-Lee在1998年的一个Design Issues(注:TBL的design issues,就当教皇的敕令好了),Semantic Web Road map里说

The Web was designed as an information space, with the goal that it should be useful not only for human-human communication, but also that machines would be able to participate and help. One of the major obstacles to this has been the fact that most information on the Web is designed for human consumption… the Semantic Webapproach instead develops languages for expressing information in a machine processable form.

后来有很多年,对语义网的宣传就是这样讲的:让机器来读网页的内容,并理解网页。

这么说,本来并不错。语义网技术的发展,也基本按TBL在1998年就定下的调子走。

问题是,就算经是好的,念经的和尚难免把经念歪了。这导致了后来的一系列问题。

从TBL的road map出发,大家的思路自然是,那我们先去设计一种语言,帮人来做网页的元数据标注(metadata annotation),不就好了。于是就有了RDF, SHOE, DAML, OIL, DAML+OIL, OWL,等等。无数的银子砸进去。

听到一点点响。

后来(2006年),大家觉得是不是经有问题?为什么大企业大多都不跟进呢?是不是太复杂了?后来就有了对语义网技术栈的简化。TBL又发了一条敕令:Linked Data。又是无数的银子砸进去。

这会听到的响多一些。linked data (http://linkeddata.org) 的数量,现在有300多个数据集,300多亿triple。在用在Watson等系统里了,效果不错。

不过,这又过了5年,对语义网质疑的声音,依然是远远超过支持它的声音。大企业的跟进,依然是笛卡尔对宗教的那种态度:试一试,试一试。说实在的,在这样的环境下,没有一点宗教的热忱或者愚蠢,那是不容易坚持下去的。

问题出在哪里?

某年我参加了一个研讨会。会上大家畅所欲言,说了推理啊,查询啊,界面啊,种种问题。然后有人问了一个问题:数据呢,数据在哪里?

主持人就问:大家说说看,你们在用什么数据?

一种不大不小的尴尬在会场蔓延。是的,在场的绝大多数人都没有从用户那里来的“真实”的数据,更不用说元数据。

从用户那里,很难拿到高质量数据,几乎不可能拿到大量的用户添加过元数据的数据。

用户都是人。人做一件事,是要考虑成本和收益的。人是有心理和感情的。人是有极大的认知局限的。大多数人本性是爱偷懒和虚荣的。我们现在的教育,没有教会大多数人怎么管理数据(因为直到不久以前,大多数人的问题是数据太少而不是太多)。如果从人那里来的就是垃圾数据,那你休想指望从中提取出太多有用的信息(除非你只关心一些宏观的统计指标)。

我开始觉得,语义网的问题,其实不在机器的语言设计的是不是简单,是不是可以推理、理解,也不是可扩展性。核心问题,其实在人,在人能不能被激励去做一些事情,然后机器才可以去做 一些相对简单的事。在设计一个语义应用前,我要问自己一系列问题:

  • 数据在哪里?谁提供数据?
  • 元数据会一并提供吗?
  • 用户会不会提供元数据?他们会因此得到什么好处?他们的心理是什么?到什么程度他们会烦?
  • 产生数据和元数据的代价是多大?用户需要付出多大的努力?
  • 用户需要多长时间才会从提供元数据得到好处?
  • 总用户里,有多少会主动提供元数据?在这些人里,又有多少会提供高质量的元数据?
  • 数据的依赖性如何?是不是要等很多用户都来提供数据了,系统才能有用?单个用户的数据有多少用?
  • 需要多少数据/元数据系统才会有一点用?明显有用?要几天,几个月,还是几个世纪才能达到?
  • 什么样的元数据是对用户/客户对有价值的?如果没有,有多大可能用工具获得?
  • 对现有系统,需要多大的改动?现有的工作模式是不是会被改变?这些人有动机做这种改变吗?会不会有抵触?怎么解决?
  • 在这个应用的全生命周期,哪些人会参与? 有多少人需要重新培训?培训的代价是多少?
  • 等等,还有很多这里不说了

语义网是给人用的。语义网上的数据,除了一些用来科研和生产的(比如天文观测和工业仪表),大头还是要由人的活动来产生。要抓住人性,才能抓住数据,然后才有后来的一切。

语义网这场革命,正如社交网络(social network),主要是一种社会的革命,模式的变迁(Paradigm Shift),而以技术支持为手段。

语义网,是要为人民服务。不要把自己关在屋里想,去设计社会该什么走,什么是“合理”的。反之,应该走出去,抓住人的欲望和能力,体察社会的趋势,从“存在”中寻找合理性,那些有助于机器来帮助”人理解人”的合理性。

至于这个东西还叫不叫语义网,已经不重要了。

【8090在职场】个人提升方法三部曲:行动,记录、总结

【8090在职场】个人提升方法三部曲:行动,记录、总结

作者:warfalcon

编者注:这是作者对知乎问题「在你所熟知的领域,有哪些知识或思维方法非常重要,业外人士常常因不知道而陷入困境?」的回答。答案中关于个人提升的方法,值得职场人士借鉴。欢迎在微博私信@bigla 邮件件brian@socialbeta.cn 给我们反馈与你的职场经验分享投稿。

大道至简,实际上最有用的方法最简单,就三步:行动,记录、总结(分析、思考、改进 ) 。 有明确的目标,长时间坚持在特定的方向中反复进行这三步就足够了。

我现在对专家的理解

  • 特定范围内试过足够多错误的人,
  • 能在日常工作中知道如何去避免错误
  • 出现错误之后如何处理和解决
  • 可以通过一些细节提前发现错误

如果你从刚开始工作时就刻意的去记录自己所遇到的事情,包括正常工作、学到的经验,遇到的问题,每周或每月花了1、2天时间去分析自己的记录,不断的总结、分析和思考,你工作的一年时间可能比别人三年经验还要强,这个方法在目前我看到的所有行业和岗位中都适用。

拿程序员为例,大多数程序员前半年到一年左右成长提高的最快,2-3年时间可以从一无所知的菜鸟变成有丰富经验的技术经理,而很多人到达这个阶段之后就停止长成,如果没有特别的机会很能难继续成长为框架设计师。项目经理(独立带人完成整个项目,从前期到售后都包括在内)可能要2-3年左右,大约从5-10个普通程序员中出现一位。而一个好一点的核心构架设计师大约需要5-8年,经历并参加过二、三个大项目的核心设计,大致30-50个或上百个程序员中能出现一位。而这些人刚进入公司时,教育程度、水平、学习机会都相类似,但经过1-2年左右,就能看出差距所在。

同样是五年经验的程序员,有的人是一年的经验重复了五年,有的人是五年,每周每月都在记录和总结中不断提高,一、二年可能差距不太大,3-5年的差距会大到难以想象。

我觉得这三步是最主要和基础的,其他的,包括好奇心、兴趣、学习能力,阅读,积极主动、乐观、沟通能力、观察能力,只要这三步坚持下去都有所增强,至于能达到什么程度很难说,每个人投入的精力和时间不一样,关注的方向不一样,环境和心境也不同,比如刚参加工作、工作三年后和结婚后的表现又不一样。
这三步缺一不可,总结的前提是建立了详细的记录,坚持长时间的定期总结能让你认识到自己的不足,并不断改正自己的缺点,而改正缺点就逼迫你去大量阅读和学习别人的优点,而你学到的优点就直接反应到你的行动上。

这三步有很多种类似的说法,比如时间统计法、1万小时中的刻意练习、PDCA循环,作法都类似,但方向和角度有所不同,有兴趣的可以去我的Blog看看类似的文章。  时间管理中用处最大的方法:柳比歇夫的时间统计法

(1)总结:每天一小结,每月一大结,年终一总结。

每天一小结 :

记下工作的起讫时间,误差不超过5分钟。

不断看表,无休无止的进行自我工时标定。任何活动-休息、看报、散步,都记下时间,多少小时,多少分钟。小结所用的时间也奥记录。他的每篇论文都有时间成本。(多年来经常看表的结果,柳比歇夫肯定形成了一种特殊的时间感。借助于一种内在的注意力,感觉的到时间的流逝)–什么都记下起始时间。

他的日记很简短,只记和自己工作或自身相关的事。国家大事在上面基本没有反应。–记录所用语句很短

每天临睡前进行时间统计。计算时间花在什么地方了,花了多少。最后算出基本消耗时间。每天只合计第一类的工作时间。(他每天的统计,结算,详细到了无情的地步,什么也不隐瞒,什么也不缩小。)–每天小结,睡前,纯时间的工作统计,总类统计,分类统计。

计算的是纯时间,即刨除工作中的任何间歇。毛时间就是用在这项工作上的所有时间,包括毛时间和休息时间。

每月小结

将每天第一类工作时间合计出来,第二类的。等。然后是第一,二类的工作的一览表。借助图和表的形式。

–每月小结,详细统计这月中的时间消耗。模式:总类,分类,详表。

第一类的非常详细,第二类的同样非常详细。

年终总结:

根据月小结做份年度总结,列出一览表,旁边注着数字,又是加又是乘。要求进行自我分析、自我研究,效率有什么变化,为什么?

年度总结:篇幅巨大,很详尽。什么记录都有。看了多少书,什么书,各国文字的文艺作品看了多少等。

再统计一遍。把所有干了的,读了的,看了的统统收集到一起,加以计算,分门别类。一年来的工作和休息-简直什么事都要结算累计。例:娱乐-六十五次。接着列清单,列举看过的戏、电影、听过的音乐会、参观过的展览会

年度总结有个欠债的账单,列着每月看完的书留下的尾巴。每年重复一次,没有减少。

每份小结、总结的末尾都注明了他们的代价-花了多少小时多少分钟。

个人总结 :

每天一小结,每月一大结,年终一总结。统计加比较分析。统计时间流向,比较两个阶段,分析原因

  • 什么都记下起讫时间
  • 记录所用语句很短
  • 每天小结,睡前,纯时间的工作统计,总类统计,分类统计。
  • 每月小结,详细统计这月中的时间消耗。模式:总类,分类,详表。

年终总结,按总类、分类、详表的模式,统计这一年。并自我分析,研究。效率有什么变化,为什么。

总结出自己的工作能力,找到适合自己的精力安排方式。

例:

乌里扬诺夫斯克。一九六四年四月八日。分类昆虫学:鉴定袋蛾,结束–二小时二十分。开始写关于袋蛾的报告–一小时五分(1.0)。附加工作:给达维陀娃和布里亚赫尔写信,六页–三小时二十分(0.5)。路途往返–0.5。休息–剃胡子。《乌里扬诺夫斯克真理报》–十五分,《消息报》–十分,《文学报》–二十分;阿・托尔斯泰的《吸血鬼》,六十六页–一小时三十分。听里姆斯基-柯萨科夫的 《沙皇的未婚妻》。基本工作合计–六小时四十五分。 这部分只是总结,他的计划部分也非常的强悍

(2)计划:有月计划,年计划,五年计划

月计划先是通过时间统计法,了解到自己每天,每月能用于工作的时间有多少,以此为标准容器;通过时间统计法,还了解到自己做每样工作需要消耗的时间,于是以这两个标准,安排工作和活动。

每天分为必须活动,非必须活动。睡觉,吃饭、这是必须的标准活动。一般约消耗十一二个小时;非标准活动,即办公、学术工作、娱乐等,约占十二至十三小时,这是毛时间。纯可利用时间是十小时,分成三个单位,或六个半单位。根据自己身体的节律,精神状态去安排工作、活动进行计划安排。这样每月预算三百小时。总结、计划占百分之一,顶多百分之二,即三到六个小时。计划就是挑时间,规定节律,使一切各得其所。用去的时间,应该同他从事的工作相称(我觉得是说时间花费的多少和工作的重要,紧急程度相符)。需要高深学识的工作,一天至多干七八小时。除最富于创造性的第一类工作,所有规定的工作量都竭力完成。

第一类工作包括中心工作(写作、搞研究)和例行工作(看参考书、做笔记、写信等)。第二类工作包括做学术报告、讲课、开学术讨论会、看文艺作品,不属直接科研工作的活动都包括在内。

年计划总结完上一年,就该制定下一年计划了。下一年计划是根据柳比歇夫提出的任务大致安排的。

五年计划除年度计划,他把一生时间,制定成一个个五年计划。每过五年,把度过的时间和干过的事分析一通,做个总的鉴定。

做月计划,年计划,五年计划,总结时比对完成情况,原因是什么。

关于本专栏

【8090在职场】是SocialBeta新推出的栏目,会在每周二和周四为年轻读者提供提高工作效能的职场管理类文章。内容包括职场心理、任务管理和职场效率等,以期为大家提供一份内容全面和精辟独到的社会化职场指南。欢迎在微博私信@bigla 邮件件brianlai2010@gmail.com 给我们反馈与你的职场经验分享投稿。

过去文章一栏 

提高效率的七个小贴士