浏览器自动化拖动进度条反反爬措施

首页 » 爬虫 » 浏览器自动化拖动进度条反反爬措施

对于一些网站,他的敏感数据是通过随机生成的ID等等来进行推送数据,而使用urllib或者抓包分析是解决不了这个问题的,我们可以通过浏览器自动化,来模拟正常的浏览器操作,来获取数据。

import time
from selenium import webdriver
import re
import urllib.request
'''让phantomJS通过其他浏览器来访问
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
dcap=dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"]=("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36")
browser=webdriver.PhantomJS(desired_capabilities=dcap)
'''
browser = webdriver.Chrome()
browser.get('http://www.kuman.com/cartoon/104666/1')
for i in range(18):
    js='window.scrollTo('+str(i*1080)+','+str((i+1)*1080)+')'#滑动(起始点,到达的点)
    browser.execute_script(js)#运行js代码
    time.sleep(2)
# for i in range(18):
#     js="document.body.scrollTop=100"#滚动条下来100px
#     browser.execute_script(js)
#     browser.implicitly_wait(300)

data=browser.page_source#源代码
browser.quit()
pat='data-src="(.*?)"'
all=re.compile(pat).findall(data)

for i in all:
    print(i)
    # path="/Users/new/lean/test/动漫/"+str(i)+".jpg"
    # urllib.request.urlretrieve(all[i],path)

 

分享到:
赞(0) 打赏

评论 8

评论前必须登录!

 

  1. #1

    我加你了哦

    努力6个月前 (03-27)
  2. #2

    以后多发点哦

    笨鸟先飞6个月前 (03-27)
  3. #3

    渣渣混6个月前 (03-28)
  4. #4

    记住这个网站了

    靓仔6个月前 (03-28)
  5. #5

    我加你了哦

    我也是渣渣4个月前 (05-26)
  6. #6

    奥利给

    hello4个月前 (05-26)
  7. #7

    我也是小白以后多多交流

    沥青4个月前 (05-26)
  8. #8

    看了那么多博客,就你的能看懂

    渣渣混4个月前 (05-26)

觉得文章有用就打赏一下弟弟吧

支付宝扫一扫打赏

微信扫一扫打赏

Vieu4.5主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。
正在播放:

作者想对您说:

累了就停下来听首歌吧

听完后会给您一个好心情

最后

等到您不容易

还希望您能多待一会儿

      00:00/00:00