c# Selenium爬取数据时防止webdriver封爬虫的方法

程序员文章站 2022-06-22 13:54:35

背景大家在使用selenium + chromedriver爬取网站信息的时候，以为这样就能做到不被网站的反爬虫机制发现。但是实际上很多参数和实际浏览器还是不一样的，只要网站进行判断处理，就能轻轻松松...

背景

大家在使用selenium + chromedriver爬取网站信息的时候，以为这样就能做到不被网站的反爬虫机制发现。但是实际上很多参数和实际浏览器还是不一样的，只要网站进行判断处理，就能轻轻松松识别你是否使用了selenium + chromedriver模拟浏览器。其中

window.navigator.webdriver

就是很重要的一个。

问题窥探

正常浏览器打开是这样的

c# Selenium爬取数据时防止webdriver封爬虫的方法

模拟器打开是这样的

chromeoptions options = null;
      iwebdriver driver = null;
      try
      {
        options = new chromeoptions();
        options.addarguments("--ignore-certificate-errors");
        options.addarguments("--ignore-ssl-errors");

        // options.addexcludedargument("enable-automation");
        // options.addadditionalcapability("useautomationextension", false);

        var listcookie = cookiehelp.getcookie();
        if (listcookie != null)
        {
          // options.addargument("headless");
        }

        // string ss = @"{ ""source"": ""object.defineproperty(navigator, 'webdriver', { get: () => undefined})""}";
        //  options.adduserprofilepreference("page.addscripttoevaluateonnewdocument", new ssss() { source = " object.defineproperty(navigator, 'webdriver', {  get: () => undefined }) " });

        chromedriverservice service = chromedriverservice.createdefaultservice(system.environment.currentdirectory);
        service.hidecommandpromptwindow = true;
        driver = new chromedriver(service, options, timespan.fromseconds(120));

        ////session.page.addscripttoevaluateonnewdocument(new openqa.selenium.devtools.page.addscripttoevaluateonnewdocumentcommandsettings()
        ////{
        ////  source = @"object.defineproperty(navigator, 'webdriver', { get: () => undefined })"
        ////}
        //// );

c# Selenium爬取数据时防止webdriver封爬虫的方法

所以，如果网站通过js代码获取这个参数，返回值为undefined说明是正常的浏览器，返回true说明用的是selenium模拟浏览器。

解决办法

那么对于这种情况，在爬虫开发的过程中如何防止这个参数告诉网站你在模拟浏览器呢？执行对应的js,改掉它的值。

 ijavascriptexecutor js = (ijavascriptexecutor)driver;
 string returnjs = (string)js.executescript("object.defineproperties(navigator, {webdriver:{get:()=>undefined}});");