欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

node.js 基于cheerio的爬虫工具的实现(需要登录权限的爬虫工具)

程序员文章站 2022-06-23 18:25:54
公司有过一个需求,需要拿一个网页的的表格数据,数据量达到30w左右;为了提高工作效率。 结合自身经验和网上资料。写了一套符合自己需求的nodejs爬虫工具。也许也会适合你...

公司有过一个需求,需要拿一个网页的的表格数据,数据量达到30w左右;为了提高工作效率。

结合自身经验和网上资料。写了一套符合自己需求的nodejs爬虫工具。也许也会适合你的。

先上代码。在做讲解

'use strict';
// 引入模块
const superagent = require('superagent');
const cheerio = require('cheerio');
const excel = require('exceljs');
var baseurl = '';
var cookies = 'phpsessid=1c948cafb361cb5dce87122846e649cd'; //伪装的cookie
let pagedatas = [];
let count = 1;
let limit = 3;
for (count; count < limit; count++) { 
  baseurl = `http://bxjd.henoo.com/policy/policylist?page=${count}`;
  loadpage(baseurl); 
}
function loadpage(baseurl) { 
   getpageload(baseurl);
} 
async function getpageload(baseurl) {
  try {
    let body = await superagent.get(baseurl)
      .set("cookie", cookies)
    var $ = cheerio.load(body.text);
    var trlist = $("#tablelist").children("tr");  
      for (var i = 0; i < trlist.length; i++) { 
        let item = {};
        var tdarr = trlist.eq(i).find("td");
        var id = tdarr.eq(0).text();
        item.sortid = id;
        var detailurl = `http://bxjd.henoo.com/policy/view?id=${id}`;
        item.policyid = tdarr.eq(1).text();
        item.policyproductname = tdarr.eq(2).text();
        item.policyname = tdarr.eq(3).text();
        item.policymoney = tdarr.eq(4).text();
        let detailbody = await superagent.get(detailurl)
          .set("cookie", cookies);
        var $$ = cheerio.load(detailbody.text);
        var detailt = $$(".table-view");     
        //投保人证件号
        item.policyidnum = detailt.find("tr").eq(11).find("td").eq(1).text();
        //投保人手机号
        item.policyphone = detailt.find("tr").eq(10).find("td").eq(1).text();
        //被保人手机号
        item.bepoliciedphone = detailt.find("tr").eq(16).find("td").eq(1).text();      
        //被保人姓名
        item.bepoliciedname = detailt.find("tr").eq(13).find("td").eq(1).text();
        console.log(item.bepoliciedname)
        //被保人证件号
        item.bepoliciedidnum = detailt.find("tr").eq(17).find("td").eq(1).text();
        pagedatas = [...pagedatas,item];
      }
    if (pagedatas.length / 15 == (count - 1)) { 
      writexls(pagedatas)
    }
  } catch (error) {
  }
}
function writexls(pagedatas) {
  const workbook = new excel.workbook();
  const sheet = workbook.addworksheet('my sheet');
  const recolumns=[
    {header:'序号',key:'sortid'},
    {header:'投保单号',key:'policyid'},
    {header: '产品名称', key: 'policyproductname'},
    {header: '投保人姓名', key: 'policyname' },
    {header: '投保人手机号', key: 'policyphone' },
    {header: '投保人证件号', key: 'policyidnum'},
    {header: '被保人姓名', key: 'bepoliciedname' },
    {header: '被保人手机号', key: 'bepoliciedphone' },
    {header: '被保人证件号', key: 'bepoliciedidnum' },
    {header:'保费',key:'policymoney'},
  ];
  sheet.columns = recolumns;
  for(let trdata of pagedatas){
    sheet.addrow(trdata);
  }
  const filename = './projects.xlsx';
  workbook.xlsx.writefile(filename)
  .then(function() {
   console.log('ok');
  }).catch(function (error) { 
     console.error(error); 
  });
 }

代码使用方式

一、npm install 相关的依赖二、代码修改

1、修改为自己的baseurl

2、如果不需要携带cookie时将set("cookie", cookies)代码去掉

3、修改自己的业务代码

三、运行 node index四、部分代码说明

所有代码不过90行不到,操作了表格数据获取和单条数据详情的获取

node.js 基于cheerio的爬虫工具的实现(需要登录权限的爬虫工具)

接口请求的框架使用superagent的原因是拼接伪装的cookie的操作比较简单。因为有的时候我们需要获取登录后的页面数据。

这个时候可能需要请求是携带登录cookie信息。返回后的body对象通过cheerio.load之后就能拿到一个类似jquery的文档对象。

后面就可以很方便的使用jquery的dom操作方式去拿到页面内自己想要的数据了。

node.js 基于cheerio的爬虫工具的实现(需要登录权限的爬虫工具)

数据写入到excel中。

五、结果

node.js 基于cheerio的爬虫工具的实现(需要登录权限的爬虫工具)

node.js 基于cheerio的爬虫工具的实现(需要登录权限的爬虫工具)

总结