爬虫的发展历史

2019-12-11 13:51:48  浏览:105  作者:老王

  在搜索引擎的4大系统中,第1个系统是下载系统。和航天运载火箭系统的动力系统一样,下载系统是搜索引擎大覆的基础。搜索的数据均来自于下载系统的工作,其工作方式巧妙、合理且强大。爬虫(也称为“ Crawler",中文译为“爬虫”,或者“蜘蛛”)是其中最华彩的乐章。让我们从爬虫开始,逐渐进入闪烁着奇异光芒的领地。

  世界上第1个爬虫


  爬虫是一种自动抓取万维网网页信息的机器人。世界上第1个网络爬虫由麻省理工学院(MIT)的学生马休格雷( Matthew Gray)在1993年写成,并命为“万维网漫游者”)尽管其编写目的不是为了做搜索引擎,但是正是这革命性的创新,为搜索引擎的发展和今天的广泛应用奠定了坚实的基础。

  爬虫的发展历程


  现代搜索引擎的思路源于 Wanderer,不少人改进了 MatthewGrey的蜘蛛程序。1994年7月, Michael mauldin将 John leavitt的蜘蛛程序接入到其索引程序中,创建了目前为人熟知的 Lycos其后无数的搜索引擎促使爬虫越写越复杂,并逐渐向多策略、负载均衡及大规模增量抓取等方向发展。爬虫的工作成果使得搜索引擎能够检索几乎全部的万维网网页,甚至被删除的网页也可以通过一个称之为“网页快照”的功能访问。

  前人的辉煌成就令人赞叹不已,那么爬虫是怎么实现这些功能的呢?为什么说它巧妙、合理且强大呢?让我们首先从爬虫开始入手,深入理解搜索引擎的下载系统。

评论区

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

【随机新闻】

返回顶部