欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

PuppeteerSharp读取页面完整HTML(.NetCore)

程序员文章站 2022-07-02 12:41:30
1.使用NUGET安装PuppeteerSharp 通过工具或者命令方式安装 2.初始化浏览器 await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision); 3.具体代码 using (Browser browse ......

1.使用nuget安装puppeteersharp

通过工具或者命令方式安装

2.初始化浏览器

await new browserfetcher().downloadasync(browserfetcher.defaultrevision);

3.具体代码

using (browser browser = await puppeteer.launchasync(new launchoptions { headless = true }))
{
    using (var page = await browser.newpageasync())
    {
        //设置浏览器的页面大小
        await page.setviewportasync(new viewportoptions
        {
            width = 1024,
            height = 768
        });
        await page.gotoasync("http://www.baidu.com");
        var html = await page.getcontentasync();

        var sourcefile = "";
        var memorystream = new memorystream(encoding.default.getbytes(html));
        var sr = new streamreader(memorystream);
        sourcefile = sr.readtoend();
        
        //针对源代码进行分析
        var te = new textextractor(sourcefile);
        te.extract();
        sr.close();
        
        //将页面保存为图片
        //await page.screenshotasync(@"d:\1.png",
        //    new screenshotoptions() { fullpage = true, type = screenshottype.png });
    }
}