网络爬虫的定义

网络爬虫(Web Spider,又被称为网页蜘蛛,网络机器人,又称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。这样看来,网络爬虫就是一个爬行程序,一个抓取网页的程序。
简单地说,网络爬虫的基本任务就是抓取网页内容

URL概念

抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏览器的地址栏中输入 www.baidu.com 这个地址。打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。HTML是一种标记语言,用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。
在理解URL之前,首先要理解URI的概念
Web上每种可用的资源,如 HTML文档、图像、视频片段、程序等都由一个通用资源标志符(Universal Resource Identifier, URI)进行定位。URI通常由三部分组成:
①访问资源的命名机制;
②存放资源的主机名;
③资源自身 的名称,由路径表示。
如URI:http://www.baidu.com.cn/myhtml/html1223/,我们可以这样解释它:
①这是一个可以通过HTTP协议访问的资源,
②位于主机www.baidu.com.cn上,
③通过路径“/html/html40”访问。

URL的概念 URL是URI的一个子集。它是Uniform Resource Locator的缩写,译为“统一资源定位 符”。通俗地说,URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。

URL示例

1.HTTP协议的URL示例:
使用超级文本传输协议HTTP,提供超级文本信息服务的资源。

例:http://www.peopledaily.com.cn/channel/welcome.htm
其计算机域名为www.peopledaily.com.cn。
超级文本文件(文件类型为.html)是在目录 /channel下的welcome.htm。
这是中国人民日报的一台计算机。


例:http://www.rol.cn.net/talk/talk1.htm
其计算机域名为www.rol.cn.net。
超级文本文件(文件类型为.html)是在目录/talk下的talk1.htm。
这是瑞得聊天室的地址,可由此进入瑞得聊天室的第1室。


2.文件的URL
用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路 径(即目录)和文件名等信息。
有时可以省略目录和文件名,但“/”符号不能省略。
例:file://ftp.yoyodyne.com/pub/files/foobar.txt
上面这个URL代表存放在主机ftp.yoyodyne.com上的pub/files/目录下的一个文件,文件名是foobar.txt。


例:file://ftp.yoyodyne.com/pub
代表主机ftp.yoyodyne.com上的目录/pub。


例:file://ftp.yoyodyne.com/
代表主机ftp.yoyodyne.com的根目录。

更多相关文章

  1. python中查看变量内存地址的方法
  2. CentOS 7下配置IP地址
  3. 如果后台的SVN服务器IP地址更改了,如何修改客户端的连接url呢?
  4. Linux 修改ip地址
  5. linux配置虚拟IP地址方法
  6. 使用.NetCore在Linux上写TCP listen 重启后无法绑定地址
  7. Linux系统下用C语言获取MAC地址
  8. Red Hat Linux下如何修改网卡MAC地址
  9. 一些下载交叉编译环境的地址

随机推荐

  1. Android JNI remote debugging
  2. android排版(布局)
  3. Android(安卓)实现遮罩
  4. android ListView GridView 单选和复选列
  5. Android Studio App设置TextView文字内容
  6. Android中实现全屏显示的方法
  7. Android 获取SHA1和SHA256的值
  8. 安卓布局文件中控件的各种属性的含义
  9. Android(安卓)WebView在4.4版本以上无法
  10. Mac下Android Studio搭建