标签:爬虫
java + selenium 爬取网页
需求 最近在爬取一家网站的内容,但是发现这家网站的部分内容嵌入在css里,需要解析css 的值,所以用无头的chrome浏览器来抓取页面,利用chrome driver 解析网页,运行js 来提取网页内容。 技术方案采用 java 11 + selenium 4.7.2 + chrome driver 108 注意 windows 上 chrome dri……
12-28 立刻查看
python 正则表达式获取 div 内部html
在做爬虫的html提取时,要获取一个div内部的所有内容,div如下 str = '<div class="nam"> \n\n <p>内容</p> 张三</div>' 我想要获取的内容是: \n\n <p>内容</p> 张三 错误……
02-19 立刻查看