2012年11月17日星期六

[译记]语义网模式:语义技术概论(3)


[译记]语义网模式:语义技术概论(3)

书接前文:
http://www.douban.com/note/22137487/

6、 文本处理技术
我们已经看到越来越多的文本处理工具进入消费市场。像Snap、Yahoo Shortcuts或SmartLinks那样的文本导航应用可以“理解”文本与链接中的对象,并附加相应的信息于其上。其结果是用户根本不需要搜索就可以得到对信息的理解。

让我们想得更远一些,文本工具使用语义的方式可以更为有趣。文本工具不再解析用户在搜索框里输入的关键词,而是依赖于对网络文档的分析。这样对语义的理解会更为精确,或者说减少猜测性。随后文本工具给用户提供几类相关的结果供选择。这种方式从根本上不同于传统的把大量文档中得到的正确结果一起堆放在用户面前的方式。

同样有越来越多的文本处理工具跟浏览器结合起来。自顶向下的语义技术不需要发布者做任何事情,因而可以想像上下文、文本工具可以结合在浏览器里。Firefox的推荐扩展页里提供了很多的文本浏览解决方案,如Interclue, ThumbStrips, Cooliris与BlueOrganizer等。

7、 语义数据库
语义数据库是标注型语义网应用的一个发展方向。Twine正在beta测试阶段,它着眼于建立一个关于人物、公司、事件、地点的私人知识库,数据来源为各类论坛的非结构化内容,这些内容可通过书签、邮件或手工的方式进行提交。这项技术仍有待成熟,但它所能带来的好处显而易见。可以意想的一个基于Twine的应用为个性化的搜索,通过个人的知识库来对搜索结果进行过滤。Twine底层的数据表示方式是RDF,可以开放给其它的语义网络服务所采用,但其核心的算法,如实体提取是通过语义API的方式商业化的。路透社也提供了类似的API接口。

另外一个语义数据库的先行者是一家叫Metaweb的公司,它的产品的Freebase。从它所展现的形式来看,Freebase只是一个基于RDF的更结构化的wikipedia翻版。但是Freebase的目标是建立一个像wikipedia那样的世界信息库,这个信息库的强大之处在于它可以进行精确的查询(就像关系型数据库那样)。所以它的前景依然是更好的搜索。但问题在于,Freebase怎样保持与世界信息同步俱进?google每天对网络文档进行索引,可以随着网络发展而发展。Freebase现在的信息仅来自于个人编辑及从wikipedia或其它数据库中抓回的数据。如果要扩展这个产品,就必须完善从全网络获取非结构化信息、解析并更新数据库这一处理流程。

保持与世界同步这一问题对所有数据库方法都是一种挑战。对于Twine来说,需要有不断的用户数据加入,而对于Freebase来说,则需要有来自不断的来自网络的数据加入。这些问题解决起来并不简单,在真正实用之前都必须要有一个妥善的处理。

8、 结论
所有新技术的出现都需要定义一些概念和得到一些类别。语义网提供了一个很激动人心的前景:提高信息的可发现性,实现复杂的搜索,新颖的网络浏览方式。此外语义网对不同的人有不同的意义,它对于企业和对于消费者的定义是不同的,在自顶向下VS自底向上,microformats VS RDF等不同类型中也有不同的含义。除了这些模式,我们也看到了语义API与文本浏览工具的发展。所有的这些都还处于其早期发展阶段,但都承载着改变我们与网络信息交互方式的期望。
关于作者
阿稳, 豆瓣, 算法工程师
推荐系统;数据挖掘;算法架构及实现的可扩展性;R环境编程
如果你的问题已经能从我的博客中得到解答,就最好不过了:

没有评论:

发表评论