关注Linux 及系统架构: 微软和Google如何让搜索引擎理解互联网

2012年12月1日星期六

微软和Google如何让搜索引擎理解互联网

搜索引擎爬虫抓取和索引了海量的网页内容，但内容的意义则是一无所知，它们并不能像人类那样区分同一个词的不同含义。它们抓取的只是网页中的单词，而不是语义。从一开始，搜索引擎本质上是匹配文本字符串。

让字符串和语义匹配起来是搜索引擎公司努力实现的方向，微软和Google正更新其搜索引擎：微软的Satori和Google的Knowledge Graph能提取出网页中的非结构性数据，创造一个互联网“名词”——人、位置、物及彼此关系——的结构性数据库。

它们正部分实现雅虎研究院研究人员在2009年的一篇论文《A Web of Concepts》（PDF）中提出的设想，论文定义了创造真正语义Web的三大关键要素：信息提取，链接和分析。微软和Google刚刚开始融入语义的力量：Satori映射了4亿多实体，而Knowledge Graph达到了5亿，只是整个互联网的沧海一粟。

http://img.cnbeta.com/newsimg/120607/1931100384936776.jpg

文/solidot

关注Linux 及系统架构

页面

2012年12月1日星期六

微软和Google如何让搜索引擎理解互联网

微软和Google如何让搜索引擎理解互联网

没有评论:

发表评论

网页浏览总次数