元搜索引擎的主要作用与框架结构

2019-12-19 16:39:26  浏览:2734  作者:老王

  人们已经把搜索引擎作为在网络上查找信息一个非常重要的途径,从国外的 Yahoo、 Excite Altavisa到中国的新浪、搜狐、中华网等,几乎每个门户网站都提供了搜索引擎的人口,所使用的搜索引擎可以是自己开发的也可以是从专业生产搜索引擎公司购买的。由于每个搜索引擎的实现方法、信息量以及收录站点等方面的不同,使得它们之间在处理内容上有很大的差异。当用户查找信息的时候如是想要做到准确全面,他就必须访问不只一个搜索引擎。虽然这样的工作完全可以由用户自己来完成,但他们更希望能够只进行一次查询就可以获得多个搜索引擎有关查询的结果,而不是枯燥繁琐的重复劳动,这就是元搜紫引擎的存在意义。它可以让查询一次完成,极大提高检索效率,节省用户的时间。

  目前,在国外已经有 Ask Jeeves、 Cyber4ll、 DigiSearch、Dogpile、Highway6l、IsIcuth、Mamma、MetaCrawle、ProFusion等元搜索引擎,而在国内虽然中文搜索引擎已经有很多,但关于元搜索引擎的研究仍然很少,这就需要我们发展更多自己的中文元搜索引擎,以适应信总检索技术不断进步的需要。

  所谓元搜索引擎,就是指在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。元搜索引擎与擅索引擎的最大不同之处就在于它可以没有自己的资源库和机器人,它充当的是一个中间代理角色,接受用户的查询请求,将请求翻译成相应搜索引擎的查询语法。在向各个搜索引擎发送查询请求并获得反馈之后,首先进行综合相关度排序,然后将整理抽取之后的查询结果提供绐用户。这櫛由于信息源范围的扩大,不仅提高了检索效率,也大大增加了找到所需信息的可能性。

  从结构讲,元搜索引孳主要包括web服务器、结果数据库、检索式处理、Web处理接口,结果生成等几个部分,其中用户通过Web服务器访问元搜索引擎,而元索引擎则通过Web处理接口访问其它外部的搜索引擎。

元搜索引擎的主要作用与框架结构

  如图2所示,用户通过WWW服务访问元搜索引张,并向Web服务器提出检索式。当Web服务器收到查询任务时首先访问结果数据库,看在近期是否有相同的检索,如果有则直接返回保存的结果,完成查询;如果没有,那么就将检索式进行处理,分析并转化成与所要查找各搜索引擎相应的检索式格式,然后送至Web处理接冂部分。Web处理接口逦过并行的方式同时查询多个搜索引擎,集中所有的查询结果。根据各引擎的重要性,以及所得结果的相关度,通过算法对结果进行抽取和排序,并生成最终结果网页返回给用户。与此同时,将此次结果保存在结果数据库中,以备下次查询参考。这就是整个元搜索引擎的服务过程。其中对于结暴数据库中记录的处理,要指定一个生存期,也就是超过一定时间的检索结果要予以删除,以保证检索的时效性。

  需要指出的是,首先白于大部分搜索引擎互不兼容,相互操作性差,而且用户接口不一致,使得检索式处理非常复杂这不仅要求精确掌握各个搜索引擎在查询时调用CG1的格式,还要做到将当前检索式转化成相应格式。其次,由于不同搜索引擎反馈的结杲页面格式相差很大,对于这些页面的处理难度也是相当大,一方面要解析页面找到查询结果,同时还要能够把这些结果的内容抽取出来,目前采用最多的是固定查找和智能判断相结合的策略。再者,作为一个元搜索引擎妇何能够将获取的信息按照相关度进行排序也是非常复杂的问题。因为不同搜索引擎在本身查询结果排序过程中采用的算法相差很大,甚至有一些未知的算法,而元搜索引擎必须结合这些使用不同排序算法产生的结果,并以统一的结果形式返回给用户。这都是在研究元搜索引擎屮遇到的难点,也是能否成功实现一个元搜索引擎的关键

评论区

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

【随机新闻】

返回顶部