网页抓取原理

2019-12-11 14:51:25  浏览:456  作者:老王

  爬虫的工作原理包括抓取、策略和存储,抓取是爬虫的基本劳动过程;策略是爬虫的智慧中枢;存储是爬虫的劳动成果。我们按照逐个击破由浅入深的方式逐步了解整个爬虫的工作原理。

  telnet和wget

  使用 Windows操作系统的用户,执行如下步骤即可下载一个网页。

  (1)打开 Windows命令行窗口。

  (2)输入telnetwww.nju.edu.cn80(注意中间的空格)

  (3)输入GET/ index. html(注意GET要全大写,其后要有空格

  如果以上每一步都正确执行,则应该在桌面上看到南京大学网站首页的网页源代码。笔者得到的是如下的网页代码:

  <script>location. href="./cps/site/NJU/nju/njuhtm"</script>

  使用 Linux操作系统的用户,则只需要一步,即输入:vim

  http://www.***.edu.cn/index.htmi可以得到同样的结果。

  如果要把该网页文件下载到本地硬盘,对于 Linux操作系统的用户,只需要输入命令

  wgetwww.***.edu.cn/index.html

  之后使用ⅵ可以打开该文件。 Windows操作系统的用户可以下载一个wget程序,使用同样方法下载网页。

  由此看来,下载一个网页如此简单,如果要下载整个万维网,那么应当采用什么样的遍历规则呢?

评论区

共0条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

【随机新闻】

返回顶部