标签:爬虫

构建用户代理池

一些简单的反爬机制, 就是通过一个浏览器来源来判断是不是爬取自己的网站, 这个时候我们可以通过构建用户代理来伪装进行爬取信息import urllib.requestimport reimport randomuaplls=[#用户代理池 "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) A……

爬取CSDN博客全部文章内容

第一步: 想爬哪个网站, 首先要做的就是先分析一下网站的规律, 找到规律才能写程序让机器跑.打开博客网址:https://blog.csdn.net/第二步: 随便找一个文章的名字,比如这个, 然后记住它: “刷了几千道算法题,这些我私藏的刷题网站都在这里了!“OK! 然后右击鼠标点击源代码第三步: ctrl+F搜索:”……