首先 , 我准备爬取的头像网站是 https://www.woyaogexing.com/touxiang/
接着咱们需要分析一下网站的格式
网站首页

然后我们记住一个缩略图的名字, 比如“梦晚“, 然后右击鼠标查看源代码, 再ctrl+f 搜索你刚才记住的名字,

你会发现他们都在<a href=”*****.html”的标签里, 这个时候你只需要先解决把这一页缩略图的网址爬取到,

上面的图是第一页的所有缩略图的地址, 接下来,我们需要进每一个网址, 然后再看看

然后, 我们看一下源代码

发现了许多以.jpeg为后缀名的网址, 这个时候你点击会发现就是一张图, 这个时候, 你需要把这些以.jpeg为后缀名的网址给爬下来, 然后在进行补充网址

OK ! ,分析完成后, 就开始写代码了
import urllib.request import ssl import re ssl._create_default_https_context = ssl._create_unverified_context def ip(): thisip=urllib.request.urlopen("http://tpv.daxiangdaili.com/ip/?tid=559754555433921&num=1&protocol=https").read().decode("utf-8","ignore") print("当前使用的IP:"+thisip) ip = urllib.request.ProxyHandler({"https": thisip}) # IP代理 你可以看我介绍IP代理的文章,那里面有免费的IP opener = urllib.request.build_opener(ip, urllib.request.HTTPHandler) urllib.request.install_opener(opener) ssl._create_default_https_context = ssl._create_unverified_context count=0 for i in range(2,10): try: ip() url="https://www.woyaogexing.com/touxiang/index_"+str(i)+".html"#自动翻页 # print("1:" + url) data=urllib.request.urlopen(url,timeout=1).read().decode("utf-8","ignone") pat='<a href="(.*?)" class="img"' all=re.compile(pat).findall(data) for j in range(0,len(all)): url2="https://www.woyaogexing.com"+all[j] print("2:"+url2) data2=urllib.request.urlopen(url2,timeout=1).read().decode("utf-8","ignore") pat2='src="(.*?)" width' all2=re.compile(pat2).findall(data2) for f in range(0,len(all2)): url3="https:"+all2[f] print("3:" + url3) file="/Users/new/Desktop/汇总/爬虫/头像爬取/"+str(count)+".jpeg" count+=1 urllib.request.urlretrieve(url3,file) except Exception as err: print(err)

注意: 不要恶意利用, 尊重原创, 本篇只为学习练手, 作者概不负责任何和爬虫相关法律责任