![Python网络爬虫从入门到精通](https://wfqqreader-1252317822.image.myqcloud.com/cover/915/44509915/b_44509915.jpg)
上QQ阅读APP看书,第一时间看更新
1.3 网络爬虫的基本原理
一个通用网络爬虫的基本工作流程,如图1.1所示。
![](https://epubservercos.yuewen.com/8BF9E9/23721540501937606/epubprivate/OEBPS/Images/Figure-P15_52454.jpg?sign=1738799043-Lh26mX08AgEEy0iha3AsTGKmEt9TvdMD-0-6625bf11c67cd9b453bea56c7c406d7b)
图1.1 通用网络爬虫的基本工作流程
网络爬虫的基本工作流程如下。
(1)获取初始的URL,该URL地址是用户自己制定的初始爬取的网页。
(2)爬取对应URL地址的网页时,获取新的URL地址。
(3)将新的URL地址放入URL队列。
(4)从URL队列中读取新的URL,然后依据新的URL爬取网页,同时从新的网页中获取新的URL地址,重复上述的爬取过程。
(5)设置停止条件,如果没有设置停止条件,那么爬虫会一直爬取下去,直到无法获取新的URL地址为止。设置了停止条件后,爬虫将会在满足停止条件时停止爬取。