爬取QQ头像详解

首页 » 爬虫 » 爬取QQ头像详解

首先 , 我准备爬取的头像网站是 https://www.woyaogexing.com/touxiang/

接着咱们需要分析一下网站的格式 

网站首页

爬取QQ头像详解

然后我们记住一个缩略图的名字, 比如“梦晚“, 然后右击鼠标查看源代码, 再ctrl+f 搜索你刚才记住的名字,

爬取QQ头像详解

你会发现他们都在<a href=”*****.html”的标签里, 这个时候你只需要先解决把这一页缩略图的网址爬取到,

爬取QQ头像详解

上面的图是第一页的所有缩略图的地址, 接下来,我们需要进每一个网址, 然后再看看

爬取QQ头像详解

然后, 我们看一下源代码

爬取QQ头像详解

发现了许多以.jpeg为后缀名的网址, 这个时候你点击会发现就是一张图, 这个时候, 你需要把这些以.jpeg为后缀名的网址给爬下来, 然后在进行补充网址

爬取QQ头像详解

OK ! ,分析完成后, 就开始写代码了

import urllib.request
import ssl
import re
ssl._create_default_https_context = ssl._create_unverified_context
def ip():
    thisip=urllib.request.urlopen("http://tpv.daxiangdaili.com/ip/?tid=559754555433921&num=1&protocol=https").read().decode("utf-8","ignore")
    print("当前使用的IP:"+thisip)
    ip = urllib.request.ProxyHandler({"https": thisip})
    # IP代理 你可以看我介绍IP代理的文章,那里面有免费的IP
    opener = urllib.request.build_opener(ip, urllib.request.HTTPHandler)
    urllib.request.install_opener(opener)
ssl._create_default_https_context = ssl._create_unverified_context
count=0
for i in range(2,10):
    try:
        ip()
        url="https://www.woyaogexing.com/touxiang/index_"+str(i)+".html"#自动翻页
        # print("1:" + url)
        data=urllib.request.urlopen(url,timeout=1).read().decode("utf-8","ignone")
        pat='<a href="(.*?)" class="img"'
        all=re.compile(pat).findall(data)
        for j in range(0,len(all)):
            url2="https://www.woyaogexing.com"+all[j]
            print("2:"+url2)
            data2=urllib.request.urlopen(url2,timeout=1).read().decode("utf-8","ignore")
            pat2='src="(.*?)" width'
            all2=re.compile(pat2).findall(data2)
            for f in range(0,len(all2)):
                url3="https:"+all2[f]
                print("3:" + url3)
                file="/Users/new/Desktop/汇总/爬虫/头像爬取/"+str(count)+".jpeg"
                count+=1
                urllib.request.urlretrieve(url3,file)
    except Exception as err:
        print(err)

 

爬取QQ头像详解

注意: 不要恶意利用, 尊重原创, 本篇只为学习练手, 作者概不负责任何和爬虫相关法律责任

分享到:
赞(0) 打赏

评论 5

评论前必须登录!

 

  1. #1

    给你点赞

    小白6个月前 (03-27)
  2. #2

    奥利给

    沥青6个月前 (03-27)
  3. #3

    挺明白的

    白云6个月前 (03-28)
  4. #4

    不错

    努力6个月前 (03-28)
  5. #5

    我也是学计算机的

    靓仔6个月前 (03-28)

觉得文章有用就打赏一下弟弟吧

支付宝扫一扫打赏

微信扫一扫打赏

Vieu4.5主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。
正在播放:

作者想对您说:

累了就停下来听首歌吧

听完后会给您一个好心情

最后

等到您不容易

还希望您能多待一会儿

      00:00/00:00