爬虫工具htmlunit，selemium，beatifulsoup

程序员文章站 2022-06-01 09:36:11

...

   需要爬虫，试用了这三种方法，htmlunit和selemium使用的java语言编写，beatifulsoup使用python。
   beatifulSoup爬取页面代码，并可以根据html代码查找到相应标签，但是查找方式比较僵硬，难度较大，然后查了一下其他基于python的方法，说似乎都没有beatifulsoup好用，
   htmlunit是我用了之后感觉最好的一种方法，getById，Tag，attr的方式可以通过标签独有的一些特征针对性的查到，爬取想要的数据，同时可以修改数据请求头，针对令牌法防爬虫的网站。selemium的特点在于模拟浏览器操作，功能类似按键精灵或者java里的Robot，对于一些反爬虫反的比较凶网站的可以考虑。目前支持google和ie浏览器

   目前还没有深入研究各个爬虫工具的效率以及适用性，提醒一下自己，遇到令牌类型的反爬虫，修改htmlunit请求头，cookie和浏览器型号。 (selemium包太大，传不上来...)网上都有

htmlunit.zip (9.9 MB)
下载次数: 0

chromedriver_win32.zip (2.7 MB)
下载次数: 0

IEDriverServer_x64_2.42.0.zip (910.8 KB)
下载次数: 0

爬虫工具htmlunit，selemium，beatifulsoup

爬虫工具htmlunit，selemium，beatifulsoup

爬虫工具htmlunit，selemium，beatifulsoup

（娱乐）爬虫工具htmlunit