Node爬虫:批量下载网页
程序员文章站
2022-05-30 12:12:50
...
编写网页爬虫时,爬取 html 页面是基本功能。在 Node.js 中,只需借助内置的 http 模块,即可实现一个网页下载器,代码如下:
const http = require('http')
const https = require('https')
const iconv = require('iconv-lite')
const userAgent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'
function isRedirect(code) {
return code === 300 || code === 301 || code === 302 || code === 303 || code === 305 || code === 307 || code === 308
}
/**
* 网页下载器
* @param {string} url - 网页的网络地址
* @param {number} timeout - 超时时间,默认 1 分钟
* @param {number} retries - 重试次数,默认重试 2 次;为 0 时,不支持重试
* @param {number} redirect - 支持重定向次数,默认重试 5 次;为 0 时,不支持重定向
* @return promise
*/
module.exports = function htmlDoanloader(url, timeout = 60 * 1000, retries = 2, redirect = 5) {
return new Promise(function (resolve, reject) {
function wrapper (url, timeout, retries, redirect) {
let request = url.startsWith('https') ? https.request : http.request
let req = request(url, res => {
let buf = [], size = 0
if (isRedirect(res.statusCode) && 'location' in res.headers && redirect > 0) {
wrapper(res.headers.location, timeout, retries, redirect - 1)
return
}
res.on('data', (chunk) => {
buf.push(chunk)
size += chunk.length
})
res.on('end', () => {
resolve(iconv.decode(Buffer.concat(buf, size), 'utf8'))
})
})
req.setHeader('User-Agent', userAgent)
req.setTimeout(timeout, () => {
retries--
req.abort()
})
req.on('error', (err) => {
retries > 0 ? retries-- : reject(err)
})
req.on('close', () => {
// 重试时,将超时时间递增 1 分钟
if (retries > 0) wrapper(url, timeout + 60 * 1000, retries, redirect)
})
req.end()
}
wrapper(url, timeout, retries, redirect)
})
}
随着 Node 直接支持 async await,异步编程的复杂度大为简化,并且更直观。因此,上述代码使用了 Promise,方便在 async function 中拿到下载的页面字符串,以便后续进行分析。
有了上述网页下载器(htmlDownloader.js),只需循环遍历网页地址,即可实现批量网页下载,而下载网页是为了从中抽取需要的数据,这里不再展示如何批量下载网页,下一篇将展示如何用 cheerio 从网页抽取数据。
转载于:https://my.oschina.net/junyiz/blog/1615793
下一篇: Google投资慈善 五个发展方向努力