分布式数据爬取实战

分布式数据爬取实战

学了一个月了,总感觉需要做一个全站爬取才能更好的巩固这些零散的知识。不过找也没敢找太难的,天猫、京东这些想爬全站,我还做不到。最后我选择了微医这个网站。想做一件事,第一步必不可少的就是需求分析。对于医生我需要获取的数据是姓名职位评分预约量问诊量关注所属医院科室患者印象来访医院(可以看到所属医院里面就诊总数)来源(可以看到线上就诊线下……

批量获取西刺代理IP[附用户代理池]

批量获取西刺代理IP[附用户代理池]

如果不想掏钱买接口,那这种方法就能代替,并且稳定性与速度也不比付费的接口差,前提是你提取的IP本身就是稳定的。这个好办,只需在写代码的时候筛选出来稳定可靠的IP就行。小建议:建议先去这个网站上提取3-5个IP,做个IP池,然后通过这些去提取上百上千的IP,别忘了设置延时,因为作者就是当初这些没做,对面封了IP的访问,还好作者想到,去……

Scrapy基础

Scrapy基础

创建一个scrapy项目,命令如下Scrapy start project dangdang进入项目选择一个模版创建爬虫,命令如下scrapy genspider -t basic dd dangdang.com运行scrapy命令如下scrapy crawl dd –nolog(带上不输……

浏览器自动化拖动进度条反反爬措施

浏览器自动化拖动进度条反反爬措施

对于一些网站,他的敏感数据是通过随机生成的ID等等来进行推送数据,而使用urllib或者抓包分析是解决不了这个问题的,我们可以通过浏览器自动化,来模拟正常的浏览器操作,来获取数据。import timefrom selenium import webdriverimport reimport urllib.request'''让phantom……

PhantomJS基础

PhantomJS基础

很多时候,urllib和scrapy足可以应对大部分中低级爬虫,但是对于一些特殊的反爬网站,比如随机生成等,这些都是很难解决的,但是通过phantomjs无界面浏览器进行探知网站,返回的数据再进行urllib或scrapy处理,则可以解决这种反爬机制。from selenium import webdriver# browser = webdriv……

BeautiifulSoup常用匹配

BeautiifulSoup常用匹配

import sslfrom bs4 import BeautifulSoup as bsimport urllib.requestssl._create_default_https_context = ssl._create_unverified_contextdata=urllib.request.urlopen("http://www.wan……