PhantomJS基础

首页 » 爬虫 » PhantomJS基础

很多时候,urllib和scrapy足可以应对大部分中低级爬虫,但是对于一些特殊的反爬网站,比如随机生成等,这些都是很难解决的,但是通过phantomjs无界面浏览器进行探知网站,返回的数据再进行urllib或scrapy处理,则可以解决这种反爬机制。

 

from selenium import webdriver
# browser = webdriver.Chrome()
browser=webdriver.PhantomJS()
browser.get('https://www.wangxuelong.vip')
1、browser.find_element_by_xpath('//*[@id="kw"]').clear()
找到这个标签并清空里面的内容,这个xpath可以通过浏览器审查元素进行找到
2、browser.find_element_by_xpath('//*[@id="kw"]').send_keys("爬虫")
在这个输入框里输入爬虫两个字
3、browser.find_element_by_xpath('//*[@id="su"]').click()
提交这个输入框里面的内容
完成之后最好设置一个延时time.sleep(5)
不然,最后获取的是空内容。
4、browser.get_screenshot_as_file("/Users/new/t.jpg")
获取当前状态截屏
5、browser.page_source获取当前网页源代码,(包含js包的内容)
6、browser.quit()最后退出模拟浏览器
7、browser.current_url 获取当前url
分享到:
赞(0) 打赏

评论 4

评论前必须登录!

 

  1. #1

    你好8个月前 (03-27)
  2. #2

    还可以

    小白8个月前 (03-27)
  3. #3

    我加你了哦

    中国加油小子8个月前 (03-28)
  4. #4

    看了那么多博客,就你的能看懂

    我也是渣渣8个月前 (03-28)

觉得文章有用就打赏一下弟弟吧

支付宝扫一扫打赏

微信扫一扫打赏

Vieu4.5主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。
正在播放:

作者想对您说:

累了就停下来听首歌吧

听完后会给您一个好心情

最后

等到您不容易

还希望您能多待一会儿

      00:00/00:00