python 正则表达式获取 div 内部html

文章目录[隐藏]

在做爬虫的html提取时，要获取一个div内部的所有内容，div如下

str = '<div class="nam"> \n\n <p>内容</p> 张三</div>'

我想要获取的内容是：

\n\n <p>内容</p> 张三

错误用法：

import re
re.findall(r'<div[^>]*>(.*?)</div>', str)

注意，div 中是有换行 \n 的, .*? 中的点号只能匹配除换行之外的所有字符

import re
re.findall(r'<div[^>]*>([\s\S]*?)</div>', str)

\s\S 可以匹配所有字符。

本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：python 正则表达式获取 div 内部html