爬虫工具htmlunit,selemium,beatifulsoup
程序员文章站
2022-06-01 09:36:11
...
需要爬虫,试用了这三种方法,htmlunit和selemium使用的java语言编写,beatifulsoup使用python。
beatifulSoup爬取页面代码,并可以根据html代码查找到相应标签,但是查找方式比较僵硬,难度较大,然后查了一下其他基于python的方法,说似乎都没有beatifulsoup好用,
htmlunit是我用了之后感觉最好的一种方法,getById,Tag,attr的方式可以通过标签独有的一些特征针对性的查到,爬取想要的数据,同时可以修改数据请求头,针对令牌法防爬虫的网站。selemium的特点在于模拟浏览器操作,功能类似按键精灵或者java里的Robot,对于一些反爬虫反的比较凶网站的可以考虑。目前支持google和ie浏览器
目前还没有深入研究各个爬虫工具的效率以及适用性,提醒一下自己,遇到令牌类型的反爬虫,修改htmlunit请求头,cookie和浏览器型号。 (selemium包太大,传不上来...)网上都有
beatifulSoup爬取页面代码,并可以根据html代码查找到相应标签,但是查找方式比较僵硬,难度较大,然后查了一下其他基于python的方法,说似乎都没有beatifulsoup好用,
htmlunit是我用了之后感觉最好的一种方法,getById,Tag,attr的方式可以通过标签独有的一些特征针对性的查到,爬取想要的数据,同时可以修改数据请求头,针对令牌法防爬虫的网站。selemium的特点在于模拟浏览器操作,功能类似按键精灵或者java里的Robot,对于一些反爬虫反的比较凶网站的可以考虑。目前支持google和ie浏览器
目前还没有深入研究各个爬虫工具的效率以及适用性,提醒一下自己,遇到令牌类型的反爬虫,修改htmlunit请求头,cookie和浏览器型号。 (selemium包太大,传不上来...)网上都有
上一篇: phpwind中的数据库操作类