2012年11月17日星期六

[译记]语义网模式:语义技术概论(1)


[译记]语义网模式:语义技术概论(1)

很多人对语义网、web3.0的论述会表现出一种抵触情绪,这可能是因为一种事物被谈论过多时,总会引起人们的厌烦,尤其是当这种概念被过多的个人或团体利用于作为自身的宣扬时。但我们不应责难于事物的本身,如果它是有生命力的,必定有很多人努力去实现它,一个脑袋可能错了,世界上那么多聪明的脑袋不会全都错了。让我们抛开那些玄而妙之的论道,恢复语义网技术的纯朴面目,让我们看看它是否可爱得多。如果说互联网时代之前我们缺乏信息,现在则是过量的信息充斥于我们周围。我们的时间成本、我们的注意力资源其实是很有限的,怎样合理地分配这些对于我们个人来说最重要的资源,是我们面临的主要问题。可幸的是,有很多这样的工具来让我们过得更好,如搜索引擎。但搜索引擎并不真正理解网络上的信息,怎样更好地理解潜藏于海量数据中的语义信息,并加以利用,这是现在搜索引擎所面临的大问题,同时也是推荐系统要解决的问题,如果不介意,可以把这两个例子认为是语义网概念的潜在应用环境(从要解决的根本问题上来说,它们是共通)。好吧,这下与语义网的距离一下拉近了,希望我们能感觉这个概念亲切得多了、现实得多,而不是一个遥不可及的梦想。然后就开始吧,内容比较多,先译一部分,有些地方并非直译。

原文:http://www.readwriteweb.com/archives/semantic_web_patterns.php
by Alex Iskold

本文将分析语义网的趋势与技术,包括一些正在涌现的模式,对不同趋势的分类等等。

支持语义网的基础技术都已经就绪了,同时很多创业公司和大型公司都在努力地利用这些技术以实现更好的客户价值。对于不同的人来说,语义网有着不同的意义。对于一些人来说,语义网是一个数据的网络,其中数据被表示为RDF与OWL,又或者是Microformats格式。另外有人认为语义网是与网络服务相关的一个概念。也有人认为它更多地与人工智能相关。而商家则总是会试图通过终端用户的价值来重新定义这个问题,他们认为不管怎样,一个实在的、方便的应用对于消费者与企业来说才是重要的。这种不一致并非偶然,因为它的技术与概念涉及面甚广,有一些是可以实现的,有一些则只能猜测。

1、 自底向上与自顶向下
语义网的方法主要可分为两类:经典的自底向上和新兴的自顶向下的方式。自底向上的方法关注于标注好的信息,使用RDF表示,所以这些信息是机器可读的。自顶向下则着重于利用现成的页面信息,从中自动抽取出有意义的信息。近年来每一种方法都有一定的发展。

自底向上的方法的一个喜讯来自于Yahoo搜索引擎支持RDF与microformats的声明。这是一个对于内容发布者、Yahoo和消费者来说三赢的举措:发布者有了标注自己信息的激励,Yahoo可以更有效地利用这些信息,用户可以得到更好、更精确的结果。另一个喜讯来自于Dapper关于提供语义网络服务的声明,这项服务可以让内容发布者给现有的网页添加语义标注。可以期待的是,这种语义工具越多,发布者标注网页就会越容易。自动标注工具的发展与标注激励的增多,会使得自底向上的方法更加引人注目。

尽管工具与激励都有了,但要使得自底向上的方法流行起来还是有相当的难度。事实上,今天google的技术已经可以在一定程度上理解那些非结构化的网页信息。类似地,自顶向下的语义工具关注点在于怎样处理现有的非完美的信息。这些方法主要是利用自然语言处理的技术来进行实体的抽取,这些方法包括识别文档中特定实体(与人名、公司、地点等)的文本分析技术,以及能获取特定领域信息的垂直搜索引擎。

自顶向下的技术关注于从非结构化的信息中获得知识,但它同样可以处理结构化的信息,自底向上的标注技术越多,自顶向下方法的性能就越能得到提高。

2、 标注技术:RDF,Microformats与Meta信息
在自底向上的标注方法中,有几种候选的标注技术,它们都很强大,对它们的选择需要在简单性及完全性之间作一个权衡。最完备的方法是RDF:一种强大的基于图的语言,用于表示事物、属性及事物间的关系。简单地来说,你可以认为RDF是这样的一种语言,它通过这样的方式来表达事实:Alex IS human (类型表达), Alex HAS a brain (属性表达), and Alex IS the father of Alice, Lilly, and Sofia (关系表达)。RDF很强大,但因为它是以高度递归、精确与数学化而著称的,同时它也是很复杂的。

当前,大多RDF的使用都是为了解决数据的互通性。例如,医学组织使用RDF来表述染色体组数据库。因为信息被标准化了,所以,原来孤立的数据库就可以被一起查询并相互比较了。一般说来,除了语义方面的意义,RDF最主要的好处在于实现互通性与标准化,特别是对于企业来说(下文有论述)。

Microfomats提供了一个简单的方法――CSS风格-―来给现有的HTML文档添加语义标记,简洁的meta数据被嵌入到原有的HTML文档中。比较流行的Microformats标签包括hCard:描述个人及公司联系信息;hReview:添加到评论页的meta信息;与hCalendar:描述事件的标签。

Microformats因它的简单而得到流行,但它的能力仍然是很有限的。例如被传统的语义团体认为是很必要的层次结构的描述,它就做不到。此外,为了使得标记集最小化,难免地它们表达的意思就显得比较模糊。这就引出了另外一个问题:把标签嵌入到HTML文档中是不是一种合适的做法?然而,虽然仍存在很多的问题,Microformats还是因为它的简单而广受青睐,像Flickr, Eventful, LinkediIn及其它很多公司都在采用microformats,特别在是Yahoo的搜索声明发布之后。

还有一种更为简单的方法就是把meta数据放在meta头中。这种方法已经在一定程度上被使用,可惜的是使用得还不是十分广泛。纽约时报最近为他们的新闻页面启动了一个标注扩展,这种方法的好处已经在那些主题或事件页面中显现出来。例如,一个新闻页面可以通过一组关键词来标识:地点、日期、时间、人物与类别。另一个例子是关于书的页面,O’Reilly.com已经在页面的meta头里加入了书本的信息:作者、ISBN与书的类别。

尽管所有这些方法不尽相同,但相同之处是它们都是很管用的。越多的网页被标注,就会有越多的标准会被实现,同时信息也会变得更为强大与更易于得到。
关于作者
阿稳, 豆瓣, 算法工程师
推荐系统;数据挖掘;算法架构及实现的可扩展性;R环境编程
如果你的问题已经能从我的博客中得到解答,就最好不过了:

没有评论:

发表评论