BeautiifulSoup常用匹配

2020-01-25 147次浏览 已收录 8个评论
import ssl
from bs4 import BeautifulSoup as bs
import urllib.request
ssl._create_default_https_context = ssl._create_unverified_context
data=urllib.request.urlopen("http://www.wangxuelong.vip").read().decode("utf-8","ignore")
bs1=bs(data)

 

1,格式化输出 bs1.prettify()
2,获取标签 bs1.标签名
3,获取标签里面的文字 bs1.标签.string
4,获取属性列表 bs1.标签.attrs
解释: 属性列表形式<div class="btn">阅读</div>
这个class就是属性
5,获取某个属性对应的值 bs1.标签[属性名]
如bs1.title["class"]
如bs1.title.get("class")
6,获取所有某个节点的内容:bs1.find_all('标签')
如bs1.find_all('title')
如bs1.find_all(['a','title'])
7,提取所有子结点: bs1.标签名.contents
还有一种:bs1.标签名.children
如:k=bs1.title.contents

渣渣龙, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:BeautiifulSoup常用匹配
喜欢 (0)

您必须 登录 才能发表评论!

(8)个小伙伴在吐槽
  1. 还可以
    靓妹2020-03-27 12:56
  2. 还可以
    渣渣混2020-03-27 14:13
  3. 看了那么多博客,就你的能看懂
    笔记本2020-03-28 16:37
  4. 我也是学计算机的
    你好2020-03-28 17:28
  5. 我加你了哦
    我是你哥2020-05-26 09:18
  6. 我也是学计算机的
    笨鸟先飞2020-05-26 09:45
  7. 我也是学计算机的
    中国加油小子2020-05-26 10:10
  8. 记住这个网站了
    笔记本2020-05-26 10:32