30分钟快速实现小程序语音识别功能
前言
为了参加某个作秀活动,研究了一波如何结合小程序、科大讯飞实现语音录入、识别的实现。科大讯飞开发文档中只给出 python 的 demo,并没有给出 node.js 的 sdk,但问题不大。本文将从小程序相关代码到最后对接科大讯飞 api 过程,一步步介绍,半个小时,搭建完成小程序语音识别功能!不能再多了!
当然,前提是最好掌握有一点点小程序、node.js 甚至是音频相关的知识。下面话不多说了,来一起看看详细的介绍吧
架构先行
架构比较简单,大伙儿可以先看下图。除了小程序,需要提供 3 个服务,文件上传、音频编码及对接科大讯飞的服务。
node.js 对接科大讯飞的 api,npm 上已经有同学提供了 sdk,有兴趣的同学可以去搜索了解一下,笔者这里是直接调用了科大讯飞的 api 接口。
撸起袖子加油干
1、创建小程序
鹅厂的小程序文档非常详细,在这里笔者就不对如何创建一个小程序的步骤进行详细阐述了。有需要的同学可以查看鹅厂的。
1.1 相关代码
我们摘取小程序里面,语音录入和语音上传部分的代码。
// 根据wx提供的api创建录音管理对象 const recordermanager = wx.getrecordermanager(); // 监听语音识别结束后的行为 recordermanager.onstop(recorderresponse => { // tempfilepath 是录制的音频文件 const { tempfilepath } = recorderresponse; // 上传音频文件,完成语音识别翻译 wx.uploadfile({ url: 'http://127.0.0.1:7001/voice', // 该服务在后面搭建。另外,小程序发布时要求后台服务提供https服务!这里的地址仅为开发环境配置。 filepath: tempfilepath, name: 'file', complete: res => { console.log(res); // 我们期待res,就是翻译后的内容 } }); }); // 开始录音,触发条件可以是按钮或其他,由你自己决定 recordermanager.start({ duration: 5000 // 最长录制时间 // 其他参数可以默认,更多参数可以查看https://developers.weixin.qq.com/miniprogram/dev/api/media/recorder/recordermanager.start.html });
2、搭建文件服务器
步骤 1 代码中提到了一个 url 地址大家应该都还记得。
http://127.0.0.1:7001/voice
小程序本身还并没有提供语音识别的功能,所以在这里我们需要借助于“后端”服务的能力,完成我们语音识别翻译的功能。
2.1 egg.js 服务初始化
我们使用 egg.js 的 cli 快速初始化一个工程,当然你也可以使用 express、koa、kraken 等等框架,框架的选型在此不是重点我们就不做展开阐述了。对 egg.js 不熟悉的同学可以查看。
npm i egg-init -g egg-init voice-server --type=simple cd voice-server npm i
安装完成后,执行以下代码
npm run dev
随后访问浏览器http://127.0.0.1:7001应该可以看到一个hi, egg 的页面。至此我们的服务初始化完成。
2.2 文件上传接口
a) 修改 egg.js 的文件上传配置
打开 config/config.default.js,添加以下两项配置
module.exports = appinfo => { ... config.multipart = { filesize: '2gb', // 限制文件大小 whitelist: [ '.aac', '.m4a', '.mp3' ], // 支持上传的文件后缀名 }; config.security = { csrf: { enable: false // 关闭csrf } }; ... }
b) 添加 voicecontroller
打开 app/controller 文件夹,新建文件 voice.js。编写 voicecontroller 使其继承于 egg.js 的 controller。具体代码如下:
const controller = require('egg').controller; const fs = require('fs'); const path = require('path'); const pump = require('mz-modules/pump'); const uuidv1 = require('uuid/v1'); // 依赖于uuid库,用于生成唯一文件名,使用npm i uuid安装即可 // 音频文件上传后存储的路径 const targetpath = path.resolve(__dirname, '..', '..', 'uploads'); class voicecontroller extends controller { constructor(params) { super(params); if (!fs.existssync(targetpath)) { fs.mkdirsync(targetpath); } } async translate() { const parts = this.ctx.multipart({ autofields: true }); let stream; const voicepath = path.join(targetpath, uuidv1()); while (!isempty((stream = await parts()))) { await pump(stream, fs.createwritestream(voicepath)); } // 到这里就完成了文件上传。如果你不需要文件落地,也可以在后续的操作中,直接使用stream操作文件流 ... // 音频编码 // 科大讯飞语音识别 ... } }
c) 最后一步,新增路由规则
写完 controller 之后,我们依据 egg.js 的规则,在 router.js 里面新增一个路由。
module.exports = app => { const { router, controller } = app; router.get('/', controller.home.index); router.get('/voice', controller.voice.translate); };
ok,至此你可以测试一下从小程序录音,录音完成后上传到后台文件服务器的完整流程。如果没问题,那恭喜你你已经完成了 80%的工作了!
3、音频编码服务
在上文中,小程序录音的方法 recordermanager.start 的时候我们提及到了“更多参数”。其中有一个参数是 format,支持 aac 和 mp3 两种(默认是 aac)。然后我们查阅了科大讯飞的 api 文档,音频编码支持“未压缩的 pcm 或 wav 格式”。
什么 aac、pcm、wav?emmm.. ok,我们只是前端,既然格式不对等,那只需要完成 aac -> pcm 转化即可,ffmpeg 立即浮现在笔者的脑海里。一番搜索,命令大概是这样子的:
ffmpeg -i uploads/a3f588d0-edf8-11e8-b6f5-2929aef1b7f8.aac -f s16le -ar 8000 -ac 2 -y decoded.pcm
# -i 后面带的是源文件
# -f s16le 指的是编码格式
# -ar 8000 编码码率
# -ac 2 通道
接下来我们使用 node.js 来实现上述命令。
3.1 引入相关依赖包
npm i ffmpeg-static npm i fluent-ffmpeg
3.2 创建一个编码服务
在 app/service 文件夹中,创建 ffmpeg.js 文件。新建 ffmpegservice 继承于 egg.js 的 service
const { service } = require('egg'); const ffmpeg = require('fluent-ffmpeg'); const ffmpegstatic = require('ffmpeg-static'); const path = require('path'); const fs = require('fs'); ffmpeg.setffmpegpath(ffmpegstatic.path); class ffmpegservice extends service { async aac2pcm(voicepath) { const command = ffmpeg(voicepath); // 方便测试,我们将转码后文件落地到磁盘 const targetdir = path.join(path.dirname(voicepath), 'pcm'); if (!fs.existssync(targetdir)) { fs.mkdirsync(targetdir); } const target = path.join(targetdir, path.basename(voicepath)) + '.pcm'; return new promise((resolve, reject) => { command .audiocodec('pcm_s16le') .audiochannels(2) .audiobitrate(8000) .output(target) .on('error', error => { reject(error); }) .on('end', () => { resolve(target); }) .run(); }); } } module.exports = ffmpegservice;
3.3 调用 ffmpegservice,获得 pcm 文件
回到 app/controller/voice.js 文件中,我们在文件上传完成后,调用 ffmpegservice 提供的 aac2pcm 方法,获取到 pcm 文件的路径。
// app/controller/voice.js ... async translate() { ... ... const pcmpath = await this.ctx.service.ffmpeg.aac2pcm(voicepath); ... } ...
4、对接科大讯飞 api
首先,需要到科大讯飞开放平台注册并新增应用、开通应用的语音听写服务。
我们再写一个服务,在 app/service 文件夹下创建 xfyun.js 文件,实现 xfyunservice 继承于 egg.js 的 service。
4.1 引入相关依赖
npm i axios // 网络请求库 npm i md5 // 科大讯飞接口中需要md5计算 npm i form-urlencoded // 接口中需要对部分内容进行urlencoded
4.2 xfyunservice 实现
const { service } = require('egg'); const fs = require('fs'); const formurlencoded = require('form-urlencoded').default; const axios = require('axios'); const md5 = require('md5'); const api_key = 'xxxx'; // 在科大讯飞控制台上可以查到服务的apikey const api_id = 'xxxxx'; // 同样可以在控制台查到 class xfyunservice extends service { async voicetranslate(voicepath) { // 继上文,暴力的读取文件 let data = fs.readfilesync(voicepath); // 将内容进行base64编码 data = new buffer(data).tostring('base64'); // 进行url encode data = formurlencoded({ audio: data }); const params = { engine_type: 'sms16k', aue: 'raw' }; const x_curtime = math.floor(new date().gettime() / 1000) + '', x_param = new buffer(json.stringify(params)).tostring('base64'); return axios({ url: 'http://api.xfyun.cn/v1/service/v1/iat', method: 'post', data, headers: { 'x-appid': api_id, 'x-curtime': x_curtime, 'x-param': x_param, 'x-checksum': md5(api_key + x_curtime + x_param) } }).then(res => { // 查询成功后,返回response的data return res.data || {}; }); } } module.exports = xfyunservice;
4.3 调用 xfyunservice,完成语音识别
再次回到 app/controller/voice.js 文件中,我们在 ffmpeg 转码完成后,调用 xfyunservice 提供的 voicetranslate 方法,完成语音识别。
// app/controller/voice.js ... async translate() { ... ... const result = await this.ctx.service.xfyun.voicetranslate(pcmpath); this.ctx.body = result; if (+result.code !== 0) { this.ctx.status = 500; } } ...
至此我们完成语音识别的代码编写。主要流程其实很简单,通过小程序录入语音文件,上传到文件服务器之后,通过 ffmpeg 获取到 pcm 文件, 最后再转发到科大讯飞的 api 接口进行识别。
以上,如有错漏,欢迎指正!
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对的支持。
上一篇: Oracle的默认用户密码
下一篇: 微信公众平台移动版内测了!