标签：爬虫

java + selenium 爬取网页

需求最近在爬取一家网站的内容，但是发现这家网站的部分内容嵌入在css里，需要解析css 的值，所以用无头的chrome浏览器来抓取页面，利用chrome driver 解析网页，运行js 来提取网页内容。技术方案采用 java 11 + selenium 4.7.2 + chrome driver 108 注意 windows 上 chrome dri……

12-28 立刻查看

python

python 正则表达式获取 div 内部html

在做爬虫的html提取时，要获取一个div内部的所有内容，div如下 str = '<div class="nam"> \n\n <p>内容</p> 张三</div>' 我想要获取的内容是： \n\n <p>内容</p> 张三错误……

02-19 立刻查看