实时搜索

2019-12-04 16:13:16  浏览:148  作者:老王

  随着 Twitter,微博等提供微信息发布的个人媒体平台逐步兴起,对搜索引擎的实时性要求日益提高。微博平台和传统的信息平台比如网页、博客、新闻等相比,有其特殊性其中一个突出的特点是时效性强,越来越多突发事件的首次发布出现在微博平台上,比如某地地震或者社会事件,这是有其必然性的。

  实时搜索与传统的网页搜索有很大差异。实时搜索的核心强调“快”,即用户发布的信息能够第一时间被搜索引擎发现、索引并搜索到。传统搜索引擎在实现机制上很难达到这一点,所以实时搜索在搜索引擎的爬虫、索引系统和搜索结果排序方面都有自己独有的特点(参考图12-4)。

实时搜索

  对于 Twitter或者新浪微博这种信息平台来说,信息的快速获取本身不存在问题。而对于搜索引擎服务公司来说,如何能够快速全面地获取微博数据就成了严重的挑战,目前的解决方案大致有两种。一种是与微博平台合作,由信息平台将最新的信息实时推送给搜索引擎。另外一种是由爬虫实时抓取,这里面有若干技术挑战:首先,微博平台作为个人信息发布平台,往往需要用户登录使用,这对于爬虫来说就形成了第1道屏障:另外,即使爬虫能够登录微博系统,如何全面获取信息,难度也很大,微博用户以亿计,而且微博内容短小,同时不像网页可以通过链接传递逐步发现更多内容,如何保证信息全面性成为第2道屏障,尽管可以通过用户关注关系获得部分微博数据,其全面性是难以保障的;如果爬虫无法保证信息的全面性,那么实时性也是无法满足的,因为很可能最新发布的消息爬虫根本抓取不到。从这几个方面讲,微博平台对于搜索引擎来说是有其天然封闭性的。Google目前通过与 Twitter合作的方式获取微博数据。

  在索引构建方面,实时搜索要求第一时间对新发布的内容进行索引,即用户发布则信息可搜。这对传统的索引机制提出了挑战,要求素引系统支持在建立索引的过程中,也能够提供搜索服务。

  在搜索结果排序方面,实时搜索也有其特点,除了内容相关性要求外,时间因素是搜索排序中首要的考虑因素,很多实时搜索系统默认按照时间顺序排序,即最新发布的信息排在前列。

  对于一个完善的实时搜索排序算法来说,一般重点考虑以下4方面的因子。

  ·内容相关性:信息是否与用户查询主题相关。

  ·时效性:发布时间越近的信息,其搜索排名应该越靠前。

  ·信息重要性:越重要或者越流行的信息排名应该越靠前,作为重要性或者流行性的判断指标有很多,比如信息发布来源是否可靠(微博中信息发布者的重要性)、被转发次数多少、被评论次数多少等都可以作为判断指标。

  ·社交性:一般来说,微博平台同时也是一个社交平台,微博用户的关注人和被关注人体现了这种社交性。排序时,应该将搜索结果的社交性体现出来,即用户关注人发布的信息排名应该靠前。

  综上所述,实时搜索在信息获取、信息索引和排序机制方面都有其特性,以此和传统搜索引擎做出区分,而随着突发事件越来越多在这种平台发布,其重要性不言而喻。

评论区

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

【随机新闻】

返回顶部