2012年12月1日星期六

搜索引擎中语义计算方法


搜索引擎中语义计算方法 

SEOer们经常在日常工作中都不可避免的遇到一个问题就是内容的创造,一个内有内容的网站对搜索引擎来说是非常不友好的,因为搜索就是帮用户找到自己想要的知识或者内容,没有好的内容搜索引擎也一定不会把你的网站推荐给用户,那么什么样的内容搜索引擎来说更好捏?有哪些维度来判断呢?相信看完《搜索引擎中语义计算方法》这篇博文为对你有所帮助,让你在给你的网站创建内容的时候更好的符合搜索引擎的标准。
两篇文档是否相关,现在的大多数SEO从业人员会认为上下文都在谈一个观点,那么这篇文档肯定就是和这个观点是相关的,其实这么理解起来也是正确的,概括下这就是从文字表面来看词语的重复次数,当然语义关联不仅仅这么简单。语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。
举例子:
第一个是:“乔布斯离我们而去了。”
第二个是:“苹果价格会不会降?”
如果拆分来看,这两个句子没有任何关联,第一个是说乔布斯,而第二个是在说苹果(水果 or 乔布斯苹果公司产品),但这2个文字放在一篇文章中可能就存在某种关联了,当你在提交“乔布斯离我们而去了。”的query的时候,搜索引擎很有可能会返回“苹果价格会不会降?”结果给你,反之亦然。但这是怎么实现的捏?百度每天收到的query请求成千上万,怎么从N多个网页中提取这种关联,然后快速的把结果反馈给提交搜索请求的用户呢?我们想到的可能是“聚类”。
百度的搜索研发部发布的“主题模型”来解决这一问题,主题模型就是对文字中隐含主题的一种建模方法。上面的例子已经很清楚了,“苹果”既包含水果也包含苹果公司的产品,当这2句话放到一起“苹果”就能和苹果公司的产品匹配,因而是相关的;当然这2个句子出现不在同一篇文章中,而第二篇文章中没有出现乔布斯之类的文字,那么就基本可以断定是不相关的了。比如一个文章如果涉及到“百度”这个主题,那么“中文搜索”、“李彦宏”等词语就会以较高的频率出现,而如果涉及到“IBM”这个主题,那么“笔记本”等就会出现的很频繁。与主题关系越密切的词语,它的条件概率越大,反之则越小。
百度语义分析
百度语义分析
通俗来说,一个主题就好像一个“桶”,它装了若干出现概率较高的词语。这些词语和这个主题有很强的相关性,或者说,正是这些词语共同定义了这个主题。对于一段话来说,有些词语可以出自这个“桶”,有些可能来自那个“桶”,一段文本往往是若干个主题的杂合体。我们举个简单的例子,见下图。
百度语义分析
百度语义分析
以上是从互联网新闻中摘抄下来的一段话。我们划分了4个桶(主题),百度(红色),微软(紫色)、谷歌(蓝色)和市场(绿色)。段落中所包含的每个主题的词语用颜色标识出来了。从颜色分布上我们就可以看出,文字的大意是在讲百度和市场发展。在这里面,谷歌、微软这两个主题也出现了,但不是主要语义。值得注意的是,像“搜索引擎”这样的词语,在百度、微软、谷歌这三个主题上都是很可能出现的,可以认为一个词语放进了多个“桶”。当它在文字中出现的时候,这三个主题均有一定程度的体现。
有了主题的概念,我们不禁要问,究竟如何得到这些主题呢?对文章中的主题又是如何进行分析呢?这正是主题模型要解决的问题。(这里就不详细介绍了,太多的数据数学函数,我也没搞懂~不过知道这些对SEOer在内容产生过程中需要注意哪些问题已经足够了~)
有了主题模型,我们该怎么使用它呢?它有什么优点呢?我总结了以下几点:
1)它可以衡量文档之间的语义相似性。对于一篇文档,我们求出来的主题分布可以看作是对它的一个抽象表示。对于概率分布,我们可以通过一些距离公式(比如KL距离)来计算出两篇文档的语义距离,从而得到它们之间的相似度。
2)它可以解决多义词的问题。回想最开始的例子,“苹果”可能是水果,也可能指苹果公司。通过我们求出来的“词语-主题”概率分布,我们就可以知道“苹果”都属于哪些主题,就可以通过主题的匹配来计算它与其他文字之间的相似度.
3)可以以排除文档中噪音的影响。一般来说,文档中的噪音往往处于次要主题中,我们可以把它们忽略掉,只保持文档中最主要的主题。
4)它是无监督的,完全自动化的。我们只需要提供训练文档,它就可以自动训练出各种概率,无需任何人工标注过程。
5)它是跟语言无关的。任何语言只要能够对它进行分词,就可以进行训练,得到它的主题分布。
综上所述,相信更多SEO看到这个之后会对以后的工作更有指导意义吧。

没有评论:

发表评论