欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

node.js做一个简单的爬虫案例教程

程序员文章站 2022-06-17 08:59:46
准备工作 首先,你需要下载 nodejs,这个应该没啥问题吧 原文要求下载 webstrom,我电脑上本来就有,但其实不用下载,完全在命令行里面操作就行创建工程准备工作做完了,下面就开始创...

准备工作

  1. 首先,你需要下载 nodejs,这个应该没啥问题吧
  2. 原文要求下载 webstrom,我电脑上本来就有,但其实不用下载,完全在命令行里面操作就行

创建工程

准备工作做完了,下面就开始创建工程了

  1. 首先,在你想要放资源的地方创建文件夹,比如我在 e 盘里面创建了一个 mystudynodejs 的文件夹
  2. 在命令行里面进入你创建的文件夹 如图
    进入 e 盘:e:
    进入文件夹:cd mystudynodejs(你创建的文件夹的名字)
    注意全是英文符号
  3. 初始化项目,在你创建的文件夹下面运行 npm init 初始化项目
    一路回车,最后输个 yes 就行
  4. 运行完以后,会在文件夹里面生成一个 package.json 的文件,里面包含了项目的一些基本信息。
  5. 安装所需要的包
    在所创建的文件夹的目录下运行
    npm install cheerio –save
    npm install request -save
    爬武大的话,这两个包就够了,如果想爬草榴需要额外的转换编码的包,windows 上面是
    npm install iconv-lite -save
    mac 上面是 npm install iconv -save
    运行结果应该第二幅图这样,中间手滑少写了个字母
  6. 创建文件
    在你所创建的文件夹下面创建一个 data 文件夹用于保存爬到的文本数据。
    创建一个 image 文件夹用于保存图片数据。
    创建一个 js 文件用来写程序。比如 study.js。(创建一个记事本文件将 .txt 改为 .js)
    说明 –save 的目的是将项目对该包的依赖写入到 package.json 文件中。

node.js做一个简单的爬虫案例教程

node.js做一个简单的爬虫案例教程

武大计算机学院新闻爬虫代码

下面就是武大计算机学院新闻的爬虫代码了,复制到创建的 .js 文件中,保存。

下面就是激动人心的时刻了,在当前文件夹下面,运行创建的 js 文件,比如我的是 news.js。

npm news.js

node.js做一个简单的爬虫案例教程

文本资源:

node.js做一个简单的爬虫案例教程

图片资源:

node.js做一个简单的爬虫案例教程

草榴技术讨论区爬虫

爬完武大的新闻并不过瘾,于是尝试了一波爬草榴的技术讨论区(当然也能爬一些你懂的)。其中遇到了一些问题。
爬草榴的时候,发送 http 请求报文头里面需要包含 user-agent 字段,于是需要把 初始url 做如下改变

其次,nodejs 只支持 抓取 utf-8 字符编码的网站,所以需要安装额外的包来转换编码,所以修改代码如下

成果展示:

node.js做一个简单的爬虫案例教程

到此这篇关于node.js做一个简单的爬虫案例教程的文章就介绍到这了,更多相关node.js做一个简单的爬虫内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!

相关标签: node.js 爬虫