基于node下的http小爬虫的示例代码
程序员文章站
2022-09-02 14:05:00
每时每刻不管你睡了还是没睡,互联网都会有海量的数据来来往往,有客服端到服务端,有服务端到服务端。http的get和request完成的角色即为数据的获取及提交,接下来我们动...
每时每刻不管你睡了还是没睡,互联网都会有海量的数据来来往往,有客服端到服务端,有服务端到服务端。http的get和request完成的角色即为数据的获取及提交,接下来我们动手写一个简单的小爬虫来爬爬菜鸟教程中关于node的章节的课程界面。
爬取node.js 教程首页的所有数据
建立node-http.js,其中代码如下,代码中有详细的的注释,自行理解了哈
var http=require('http');//获取http模块 var url='http://www.runoob.com/nodejs/nodejs-tutorial.html';//定义node官网地址变量 http.get(url,function(res){ var html=''; // 这里将会触发data事件,不断触发不断跟新html直至完毕 res.on('data',function(data){ html +=data }) // 当数据获取完成将会触发end事件,这里将会打印初node官网的html res.on('end',function(){ console.log(html) }) }).on('error',function(){ console.log('获取node官网相关数据出错') })
终端执行结果中发现这个页面的html全部被爬下来了
g:\node\node-http> node node-http.js <!doctype html> <html> <head> <meta http-equiv="content-type" content="text/html; charset=utf-8" /> <meta property="qc:admins" content="465267610762567726375" /> <meta name="viewport" content="width=device-width, initial-scale=1.0" /> <title>node.js 教程 | 菜鸟教程</title> <link rel='dns-prefetch' href='//s.w.org' /> <link rel="canonical" href="http://www.runoob.com/nodejs/nodejs-tutorial.html" /> <meta name="keywords" content="node.js 教程,node,node.js,nodejs"> <meta name="description" content="node.js 教程 简单的说 node.js 就是运行在服务端的 javascript。 node.js 是一个基于chrome javascript 运行时建立的一个平台 。 node.js是一个事件驱动i/o服务端javascript环境,基于google的v8引擎,v8引擎执行javascript的速度非常快,性能非常好。 谁适合阅读本教程? 如果你是一个前端程序员,你不懂得像php、python或ruby等动态编程语言,.."> <link rel="shortcut icon" href="//static.runoob.com/images/favicon.ico" rel="external nofollow" rel="external nofollow" mce_href="//static.runoob.com/images/favicon.ico" rel="external nofollow" rel="external nofollow" type="image/x-icon"> <link rel="stylesheet" href="/wp-content/themes/runoob/style.css?v=1.141" rel="external nofollow" type="text/css" media="all" /> <link rel="stylesheet" href="//cdn.bootcss.com/font-awesome/4.7.0/css/font-awesome.min.css" rel="external nofollow" media="all" /> <!--[if gte ie 9]><!--> 。。。。。。。。。。 这里只展示部分不然你半天看不到头
当然爬个html对于我们来说没啥用,现在我们要做些过滤,比如这个node教程中我想知道课程目录有哪些,这样可以选择感兴趣的去看看学学。直接上代码吧还是:
不过在此之前我们需要下载cheerio模块(cheerio是nodejs的抓取页面模块,为服务器特别定制的,快速、灵活、实施的jquery核心实现。适合各种web爬虫程序。)具体详细介绍你们可以自行去搜索了解,cheerio的用跟jquery的用法非常类似,所以不用担心上手繁琐。
ps g:\node\node-http> npm install cheerio
建立node-http-more.js,其中代码如下:
var http=require('http');//获取http模块 var cheerio=require('cheerio');//引入cheerio模块 var url='http://www.runoob.com/nodejs/nodejs-tutorial.html';//定义node官网地址变量 // filer node chapter function filernodechapter(html){ // 将爬取得html装载起来 var $=cheerio.load(html); // 拿到左侧边栏的每个目录 var nodechapter=$('#leftcolumn a'); //这里我希望我能获取的到的最终数据格式这个样子的,如此我们能知道每个目录的地址及标题 /** * [{id:,title:}] */ var chapterdata=[]; nodechapter.each(function(item){ // 获取每项的地址及标题 var id=$(this).attr('href'); var title=$(this).text(); chapterdata.push({ id:id, title:title }) }) return chapterdata; } //获取每个数据 function getchapterdata(nodechapter){ nodechapter.foreach(function(item){ console.log(' 【 '+item.id+' 】'+item.title+'\n') }); } http.get(url,function(res){ var html=''; // 这里将会触发data事件,不断触发不断跟新html直至完毕 res.on('data',function(data){ html +=data }) // 当数据获取完成将会触发end事件,这里将会打印初node官网的html res.on('end',function(){ //console.log(html) // 过滤出node.js的课程目录 var nodechapter= filernodechapter(html); //循环打印所获取的数据 getchapterdata(nodechapter) }) }).on('error',function(){ console.log('获取node官网相关数据出错') })
终端执行结果及打印出课程目录
g:\node\node-http> node node-http-more.js 【 /nodejs/nodejs-tutorial.html 】 node.js 教程 【 /nodejs/nodejs-install-setup.html 】 node.js 安装配置 【 /nodejs/nodejs-http-server.html 】 node.js 创建第一个应用 【 nodejs-npm.html 】 npm 使用介绍 【 nodejs-repl.html 】 node.js repl 【 nodejs-callback.html 】 node.js 回调函数 【 nodejs-event-loop.html 】 node.js 事件循环 【 nodejs-event.html 】 node.js eventemitter 【 nodejs-buffer.html 】 node.js buffer 【 nodejs-stream.html 】 node.js stream 【 /nodejs/nodejs-module-system.html 】 node.js 模块系统 。。。。。。。。。。。 这里就不全部给出,你可以自己尝试着运行操作查看所有结果
到此一个简单的爬虫就写完了,赶紧自己动手试试吧,希望对大家的学习有所帮助,也希望大家多多支持。