相关搜索

2019-12-03 14:11:42  浏览:147  作者:老王

  相关搜索也常被称做查询推荐,也就是说用户输入某个查询后,搜索引擎向用户推荐与用户输入查询语义相关的其他查询。用户对于自己的信息需求,不一定能够准确地想到合适的搜索词来表达搜索意图,相关搜索可以给用户提示,如果用户觉得搜索引擎推荐的查询更适合自己的搜索意图,那么会改善用户体验。

  相关搜索目前已经是搜索引擎提供的标准配置功能,图9-6是输入“姚明”作为查询请求时, Google的相关搜索提供的结果。

相关搜索

  给定用户查询,搜索引擎如何计算相关查询呢?目前主流的做法有两类:基于查询会话的方法和基于点击图的方法。

  甚于查询会话的方法


  对于原始搜索日志,搜索引擎会对其做初步整理,而查询会话是其中一种整理方式每个查询会话包含了某个固定用户在较短时间内连续发出的查询流,一般而言,在同一查询会话内的查询相互之间存在语义联系,而基于查询会话来进行相关搜索推荐的方法就是利用了这一点。

  图9-7是这种方法的简明示意图。搜索引擎将原始搜索日志转换为大量的查询会话,之后采用关联规则挖掘等各种数据挖掘算法来对查询会话进行统计处理,挖掘结果往往是一批查询对<Qx,Q>,这代表Qx和Qy在查询会话里是经常一起出现的,所以当用户输入其中某一个查询的时候,可以推荐给用户另外一个查询作为相关搜索结果。

相关搜索

  这种方法思路简单,但是存在两个缺点:一个是查询会话的准确切割有一定难度;另外,因为查询会话是以同一用户的输入为基准的,所以在挖据结果里不能体现不同用户的查询之间的关联。

  基于点击图的方法


  前文讲过,点击图是对原始搜索日志整理后的另外一种中间结果,很多算法使用点击图来进行查询推荐。尽管方法很多,但是其基本指导思想是相同的:如果两个查询各自对应的点击网址中,有很大比例是相同的,那么说明这两个查询在语义上紧密相关,可以作为相互推荐的相关查询。

  图9-8是一个较为通用的利用点击图来探寻语义相关查询的方法示意图。总的来说,这种方法由两个步骤构成。首先,根据点击图可以将查询表示为其对应点击网址的权重向量,比如图中的q2这个查询,因为用户发出这个查询后点击过D2和D3两个网址,且其点击次数分别是10和8,所以可以构造向量[0,10,80],向量的每一维度代表一个网址,以点击次数作为对应的权重。在做出以上处理后,就可以进行第2步,计算任意两个查询之间的相似度,在此基础上采用不同的聚类算法可以将查询聚合成大小不同的类别,被聚合到同一类别内的查询可以相互作为相关搜索的结果推荐给用户,比如在图9-8的例子中,用户输入查询q2,可以将43和q4作为相关搜索的结果推荐给用户。

  上述是一个通用的基本算法框架,不同的研究者提出了各种扩展算法,比如在设定查询的权重向量时,不仅考虑点击关系,还可以将点击网址的网页内容相似性考虑进来等同时,在聚类算法方面也可以采用不同的方法来实现具体系统。

相关搜索

  基于点击图的力法是非常常见的做法,但是其也有自身的缺点:由于点击图数据量非常庞大,一般聚类算法如何能够快速处理如此大量的数据是有挑战性的。

评论区

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

【随机新闻】

返回顶部