c# Selenium爬取数据时防止webdriver封爬虫的方法
程序员文章站
2022-06-22 13:54:35
背景大家在使用selenium + chromedriver爬取网站信息的时候,以为这样就能做到不被网站的反爬虫机制发现。但是实际上很多参数和实际浏览器还是不一样的,只要网站进行判断处理,就能轻轻松松...
背景
大家在使用selenium + chromedriver爬取网站信息的时候,以为这样就能做到不被网站的反爬虫机制发现。但是实际上很多参数和实际浏览器还是不一样的,只要网站进行判断处理,就能轻轻松松识别你是否使用了selenium + chromedriver模拟浏览器。其中
window.navigator.webdriver
就是很重要的一个。
问题窥探
正常浏览器打开是这样的
模拟器打开是这样的
chromeoptions options = null; iwebdriver driver = null; try { options = new chromeoptions(); options.addarguments("--ignore-certificate-errors"); options.addarguments("--ignore-ssl-errors"); // options.addexcludedargument("enable-automation"); // options.addadditionalcapability("useautomationextension", false); var listcookie = cookiehelp.getcookie(); if (listcookie != null) { // options.addargument("headless"); } // string ss = @"{ ""source"": ""object.defineproperty(navigator, 'webdriver', { get: () => undefined})""}"; // options.adduserprofilepreference("page.addscripttoevaluateonnewdocument", new ssss() { source = " object.defineproperty(navigator, 'webdriver', { get: () => undefined }) " }); chromedriverservice service = chromedriverservice.createdefaultservice(system.environment.currentdirectory); service.hidecommandpromptwindow = true; driver = new chromedriver(service, options, timespan.fromseconds(120)); ////session.page.addscripttoevaluateonnewdocument(new openqa.selenium.devtools.page.addscripttoevaluateonnewdocumentcommandsettings() ////{ //// source = @"object.defineproperty(navigator, 'webdriver', { get: () => undefined })" ////} //// );
所以,如果网站通过js代码获取这个参数,返回值为undefined说明是正常的浏览器,返回true说明用的是selenium模拟浏览器。
解决办法
那么对于这种情况,在爬虫开发的过程中如何防止这个参数告诉网站你在模拟浏览器呢?执行对应的js,改掉它的值。
ijavascriptexecutor js = (ijavascriptexecutor)driver; string returnjs = (string)js.executescript("object.defineproperties(navigator, {webdriver:{get:()=>undefined}});");
运行效果
完美,达到预期效果。
以上就是c# selenium爬取数据时防止webdriver封爬虫的方法的详细内容,更多关于c# 防止webdriver封爬虫的资料请关注其它相关文章!