BeautiifulSoup常用匹配

首页 » 爬虫 » BeautiifulSoup常用匹配
import ssl
from bs4 import BeautifulSoup as bs
import urllib.request
ssl._create_default_https_context = ssl._create_unverified_context
data=urllib.request.urlopen("http://www.wangxuelong.vip").read().decode("utf-8","ignore")
bs1=bs(data)

 

1,格式化输出 bs1.prettify()
2,获取标签 bs1.标签名
3,获取标签里面的文字 bs1.标签.string
4,获取属性列表 bs1.标签.attrs
解释: 属性列表形式<div class="btn">阅读</div>
这个class就是属性
5,获取某个属性对应的值 bs1.标签[属性名]
如bs1.title["class"]
如bs1.title.get("class")
6,获取所有某个节点的内容:bs1.find_all('标签')
如bs1.find_all('title')
如bs1.find_all(['a','title'])
7,提取所有子结点: bs1.标签名.contents
还有一种:bs1.标签名.children
如:k=bs1.title.contents
分享到:
赞(0) 打赏

评论 8

评论前必须登录!

 

  1. #1

    还可以

    靓妹6个月前 (03-27)
  2. #2

    还可以

    渣渣混6个月前 (03-27)
  3. #3

    看了那么多博客,就你的能看懂

    笔记本6个月前 (03-28)
  4. #4

    我也是学计算机的

    你好6个月前 (03-28)
  5. #5

    我加你了哦

    我是你哥4个月前 (05-26)
  6. #6

    我也是学计算机的

    笨鸟先飞4个月前 (05-26)
  7. #7

    我也是学计算机的

    中国加油小子4个月前 (05-26)
  8. #8

    记住这个网站了

    笔记本4个月前 (05-26)

觉得文章有用就打赏一下弟弟吧

支付宝扫一扫打赏

微信扫一扫打赏

Vieu4.5主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。
正在播放:

作者想对您说:

累了就停下来听首歌吧

听完后会给您一个好心情

最后

等到您不容易

还希望您能多待一会儿

      00:00/00:00