关注Linux 及系统架构: [译记]语义网模式：语义技术概论（2）

2012年11月17日星期六
[译记]语义网模式：语义技术概论（2）

书接前文：
http://www.douban.com/note/21704310/

3、 消费者与企业
关于语义网的讨论中，在用户与企业的关注点是不一样的。从消费者的立场来说，我们需要一个杀手级的应用（killer app），可以给用户传递实在而简单的价值。因为用户只会关注产品的实用性，而不会在乎它建立在什么技术之上。问题在于，直到目前为止，语义网的关注点更多的都还停留在理论层面，如标注信息以使得机器可读。我们可以给出这样的承诺：一但信息都被标注，网络就会变成一个大型的RDF数据库，大量激动人心的应用也会应运而生。但也有怀疑者指出，首先你必须得达成那样的假设。

已经有很多基于语义网的应用，如通用及垂直搜索引擎、文本助理工具、个人信息管理系统、语义浏览工具等等，但在它们为大众所接受之前，还有很长的路要走。即便这些技术成功了，用户也不会有兴趣知道那背后使用了些什么技术。所以说在用户层面推广语义网技术是没什么前景的。

企业就不一样了，第一，企业比较习惯于技术方面的论调，对于它们来说，利用语义技术可以增加产品的智能程度，从而形成市场价值。“我们的产品更好更聪明，因为我们使用语义网”，听起来这对企业来说是一个很不错的宣传。

从企业层面来说，RDF解决了数据的互通性标准的问题。这个问题其实在软件行业的早期便已出现，你可以忘掉语义网，只把它看作是一个标准协议，一个使得两个程序可以互通信息的标准。这对企业来说无疑是极具价值的。RDF提供了一个基于XML的通讯方案，它所描述的前景使得企业并不在乎它的复杂性。但还存在着一个扩展性的问题，跟已经普及优化的关系型数据库不同，基于XML的数据库并没有普及，这归咎于其可扩展性与查询能力。就像九十年代末的对象数据库一样，基于XML的数据库承载了太多的期望，让我们拭目以待。

4、 语义API
语义API是随着语义网的发展而发展的，这类网络服务以非结构化的文本作为输入，输出一些实体与关系。例如路透社的Open Calais API，这项服务接受原始文本的输入，返回文本中的人名、地点、公司等信息，并在原文中加以标注。另一个例子是TextWise的SemanticHacker API，该公司还提供了一百万美元的悬赏，以奖励基于它的API的最好的商业语义网应用。这个API可以把文档中的信息分为不同的类别（称为语义指纹），输出文档中的实体与主题。这点和Calais的很相似，但它还提供了一个主题的层次结构，文档中的实际对象是结构中的叶节点。再一个例子来自于Dapper，那是一个有助于从无结构的HTML页面提取结构化信息的网络服务。Dapper的工作依赖于用户在页面上为对象定义一些属性，比如，一个图片出版商会定义作者、ISBN和页数的信息在哪里，然后Dapper应用就可以为该站点创建一个识别器，之后就可以通过API来读取它的信息。从技术的角度来看，这似乎是个倒退，但实际上Dapper的技术在实际当中非常有用。举个典型的情景为例，对于一个并没有专门API可以读取其信息的网站，即便是一个不懂得技术的人都可以在短时间内用Dapper来构造一个API。这是最强大、最快捷的把网站变为网络服务的途径。

5、 搜索技术
可能语义网发展的最初动机就是因为很久以来搜索的质量都已经很难再得到提升。关于对页面语义的理解能提高搜索质量这一点假设也已经被证实。语义网搜索两个主要的竞争者Hakia与PowerSet都已经做出不少的进步，但仍然不足够。因为，基于统计的google算法，在处理人物、城市与公司等实体时表现得与语义技术同样的好。当你提问“法国总统是谁”时，它能返回一个足够好的答案。

越来越多人意识到对搜索技术边缘化的改进是很难击败google的，因而转向寻找语义网的杀手级应用。很有可能，理解语义对于搜索引擎是有帮助的，但就此并不足以构建一个更好的搜索引擎。充分结合语义、新颖的展示方式与对用户的识别能提升下一代搜索引擎的搜索体验。另有一些方法试图在搜索结果上应用语义。Google也在尝试把搜索结果分为不同的类别，用户可以决定他们对哪些类别感兴趣。

搜索是一场竞赛，很多语义公司都在角逐其中。也许会有另一种提高搜索质量的可能：文本处理技术与语义数据库的结合。下面我们即将谈到。
关注Linux 及系统架构

页面

2012年11月17日星期六

[译记]语义网模式：语义技术概论（2）

[译记]语义网模式：语义技术概论（2）

没有评论:

发表评论

网页浏览总次数