node.js 基于cheerio的爬虫工具,需要登录权限的爬虫工具
程序员文章站
2022-03-20 19:53:10
公司有过一个需求,需要拿一个网页的的表格数据,数据量达到30w左右;为了提高工作效率。 结合自身经验和网上资料。写了一套符合自己需求的nodejs爬虫工具。也许也会适合你的。 先上代码。在做讲解 代码使用方式 一、npm install 相关的依赖 二、代码修改 1、修改为自己的baseUrl 2、 ......
公司有过一个需求,需要拿一个网页的的表格数据,数据量达到30w左右;为了提高工作效率。
结合自身经验和网上资料。写了一套符合自己需求的nodejs爬虫工具。也许也会适合你的。
先上代码。在做讲解
'use strict'; // 引入模块 const superagent = require('superagent'); const cheerio = require('cheerio'); const excel = require('exceljs'); var baseurl = ''; var cookies = 'phpsessid=1c948cafb361cb5dce87122846e649cd'; //伪装的cookie let pagedatas = []; let count = 1; let limit = 3; for (count; count < limit; count++) { baseurl = `http://bxjd.henoo.com/policy/policylist?page=${count}`; loadpage(baseurl); } function loadpage(baseurl) { getpageload(baseurl); } async function getpageload(baseurl) { try { let body = await superagent.get(baseurl) .set("cookie", cookies) var $ = cheerio.load(body.text); var trlist = $("#tablelist").children("tr"); for (var i = 0; i < trlist.length; i++) { let item = {}; var tdarr = trlist.eq(i).find("td"); var id = tdarr.eq(0).text(); item.sortid = id; var detailurl = `http://bxjd.henoo.com/policy/view?id=${id}`; item.policyid = tdarr.eq(1).text(); item.policyproductname = tdarr.eq(2).text(); item.policyname = tdarr.eq(3).text(); item.policymoney = tdarr.eq(4).text(); let detailbody = await superagent.get(detailurl) .set("cookie", cookies); var $$ = cheerio.load(detailbody.text); var detailt = $$(".table-view"); //投保人证件号 item.policyidnum = detailt.find("tr").eq(11).find("td").eq(1).text(); //投保人手机号 item.policyphone = detailt.find("tr").eq(10).find("td").eq(1).text(); //被保人手机号 item.bepoliciedphone = detailt.find("tr").eq(16).find("td").eq(1).text(); //被保人姓名 item.bepoliciedname = detailt.find("tr").eq(13).find("td").eq(1).text(); console.log(item.bepoliciedname) //被保人证件号 item.bepoliciedidnum = detailt.find("tr").eq(17).find("td").eq(1).text(); pagedatas = [...pagedatas,item]; } if (pagedatas.length / 15 == (count - 1)) { writexls(pagedatas) } } catch (error) { } } function writexls(pagedatas) { const workbook = new excel.workbook(); const sheet = workbook.addworksheet('my sheet'); const recolumns=[ {header:'序号',key:'sortid'}, {header:'投保单号',key:'policyid'}, {header: '产品名称', key: 'policyproductname'}, {header: '投保人姓名', key: 'policyname' }, {header: '投保人手机号', key: 'policyphone' }, {header: '投保人证件号', key: 'policyidnum'}, {header: '被保人姓名', key: 'bepoliciedname' }, {header: '被保人手机号', key: 'bepoliciedphone' }, {header: '被保人证件号', key: 'bepoliciedidnum' }, {header:'保费',key:'policymoney'}, ]; sheet.columns = recolumns; for(let trdata of pagedatas){ sheet.addrow(trdata); } const filename = './projects.xlsx'; workbook.xlsx.writefile(filename) .then(function() { console.log('ok'); }).catch(function (error) { console.error(error); }); }
代码使用方式
一、npm install 相关的依赖
二、代码修改
1、修改为自己的baseurl
2、如果不需要携带cookie时将 set("cookie", cookies)代码去掉
3、修改自己的业务代码
三、运行 node index
四、部分代码说明
所有代码不过90行不到,操作了表格数据获取和单条数据详情的获取
接口请求的框架使用superagent的原因是拼接伪装的cookie的操作比较简单。因为有的时候我们需要获取登录后的页面数据。
这个时候可能需要请求是携带登录cookie信息。返回后的body对象通过cheerio.load之后就能拿到一个类似jquery的文档对象。
后面就可以很方便的使用jquery的dom操作方式去拿到页面内自己想要的数据了。
数据写入到excel中。
五、结果
如果任何问题请给我留言。接受批评也愿意提供技术帮助
上一篇: Python实现:杨辉三角思路
下一篇: JS: 数组的循环函数