在做爬虫的html提取时,要获取一个div内部的所有内容,div如下
str = '<div class="nam"> \n\n <p>内容</p> 张三</div>'
我想要获取的内容是:
\n\n <p>内容</p> 张三
错误用法:
import re re.findall(r'<div[^>]*>(.*?)</div>', str)
注意,div 中是有换行 \n
的, .*?
中的点号 只能匹配除换行之外的所有字符
正确用法:
import re re.findall(r'<div[^>]*>([\s\S]*?)</div>', str)
\s\S
可以匹配所有字符。