Android音频编辑之音频合成功能
前言
音频编辑系列:
- android音频编辑之音频转换pcm与wav
-
-
本篇主要讲解音频pcm数据的合成,这里合成包括音频之间的拼接,混合。
- 音频拼接:一段音频连接着另一段音频,两段音频不会同时播放,有先后顺序。
- 音频混合:一段音频和另一段音频存在相同的区间,两者会有同时播放的区间。
下面是音频拼接,音频混合的效果图:
音频拼接
如果大家理解了android音频编辑之音频转换pcm与wav和的原理。那么音频拼接的原理其实就很好理解了。总的说来就是新建一个音频文件,将一段音频的pcm数据复制到新音频上,再将另一段音频的pcm数据复制到新音频上。但这里还是有一些需要注意的。
情景一
假设a音频40秒,b音频20秒,b音频数据拼接到a音频后面,得到60秒的c音频文件。
这种情况最简单了,新建音频文件c,将a音频的pcm数据复制到c音频文件上,再将b音频的pcm数据复制到c音频文件上,然后为c音频写上wav文件头信息,得到可播放的wav文件。
情景二
假设a音频40秒,b音频20秒,b音频数据插入到a音频10秒的地方,得到60秒的c音频文件。
这种情况稍微复杂点,新建音频文件c,将a音频前10秒的pcm数据复制到c音频文件上,再将b音频的pcm数据复制到c音频文件上,再将a音频后30秒的pcm数据复制到c音频文件上,最后为c音频写上wav文件头信息,得到可播放的wav文件。
情景三
假设a音频40秒,b音频20秒,b音频5至15秒的数据插入到a音频10秒的地方,得到50秒的c音频文件。
这种情况更复杂,也是最常见的插入场景,裁剪b音频并插入到a音频的某个位置,这里涉及到b音频数据的裁剪,当然原理其实也是简单的,计算出b音频5秒和10秒对应的文件数据位置,然后复制这个区间的数据到c上,针对a文件的数据,也是同样道理。
情景四
a音频和b音频中多段数据相互拼接
这种情况,原理同上面一样,只要知道指定时间对应的数据是什么,就可以实现*拼接了。
音频拼接的实现参考我的github项目 audioedit,这里我就不贴具体代码了。
音频混合
音频混合是指一段音频和另一段音频合在一起,能够同时播放,比如最常见的人声录音和背景音乐的合成,可以得到一首人声歌曲。
音频混合的原理是
音频混合原理: 量化的语音信号的叠加等价于空气中声波的叠加。
也就是说将输入的每段音频的某个时间点的采样点数值进行相加,即可将声音信号加入到输出的音频中。
音频采样点数值的大小是(-32768,32767),对应short的最小值和最大值,音频采样点数据就是由一个个数值组成的的。如果单纯叠加,可能会造成相加后的值会大于32767,超出short的表示范围,也就是溢出,所以在音频混合上回采用一些算法进行处理。下面列举下简单的混合方式。
直接叠加法
a(a1,a2,a3,a4)和b(b1,b2,b3,b4)叠加后求平均值,得到c((a1+b1),(a2+b2),(a3+b3),(a4+b4))
这种情况,输出的音频中a和b音频数据都可以以相同声音大小播放,但是可能出现溢出的情况。假设a音频指定时间点的某段采样数据是(23,67,511,139,307),b音频对应该时间点的采样数据是(1101,300,47,600,22),那么两者直接叠加的话,得到的采样数据是(1124,367,558,739,329),这个短采样数据就是两者声音混合的数据了。
叠加后求平均值
a(a1,a2,a3,a4)和b(b1,b2,b3,b4)叠加后求平均值,得到c((a1+b1)/2,(a2+b2)/2,(a3+b3)/2,(a4+b4)/2)
这样可以避免出现溢出的情况,但是会出现两者声音会比之前单独的声音小了一半,比如人声和背景音乐混合,导致输出的音频中,人声小了一半,背景音乐也小了一半,这种情况可能就不是想要的效果,特别是多段音频混合的情况。
权值叠加法
a(a1,a2,a3,a4)和b(b1,b2,b3,b4)权值叠加,a权值为x,b权值为y,得到c((a1 * x+b1 * y),(a2 * x+b2 * y),(a3 * x+b3 * y),(a4 * x+b4 * y))
这样可以更方便条件a和b的音量的大小,比如a的权值为1.2,b的权值为0.8,那么a的声音相对提高了,b的声音相对减弱了。严格来说,直接叠加法和叠加求平均值法都属于该类型。
此外还有各种更复杂的混合算法,如动态权值法,a和b的权值会根据当前时刻采样点数值的大小进行动态变化,得到一个动态增益和衰减的混合方式。
下面是直接叠加法的实现,需要注意short值要按大端存储的方式计算,存储时按大端方式存储。
/** * 叠加合成器 * @author darcy */ private static class addaudiomixer extends multiaudiomixer{ @override public byte[] mixrawaudiobytes(byte[][] bmulroadaudioes) { if (bmulroadaudioes == null || bmulroadaudioes.length == 0) return null; byte[] realmixaudio = bmulroadaudioes[0]; if(bmulroadaudioes.length == 1) return realmixaudio; for(int rw = 0 ; rw < bmulroadaudioes.length ; ++rw){ if(bmulroadaudioes[rw].length != realmixaudio.length){ log.e("app", "column of the road of audio + " + rw +" is diffrent."); return null; } } //row 代表参与合成的音频数量 //column 代表一段音频的采样点数,这里所有参与合成的音频的采样点数都是相同的 int row = bmulroadaudioes.length; int coloum = realmixaudio.length / 2; short[][] smulroadaudioes = new short[row][coloum]; //pcm音频16位的存储是大端存储方式,即低位在前,高位在后,例如(x1y1, x2y2, x3y3)数据,它代表的采样点数值就是((y1 * 256 + x1), (y2 * 256 + x2), (y3 * 256 + x3)) for (int r = 0; r < row; ++r) { for (int c = 0; c < coloum; ++c) { smulroadaudioes[r][c] = (short) ((bmulroadaudioes[r][c * 2] & 0xff) | (bmulroadaudioes[r][c * 2 + 1] & 0xff) << 8); } } short[] smixaudio = new short[coloum]; int mixval; int sr = 0; for (int sc = 0; sc < coloum; ++sc) { mixval = 0; sr = 0; //这里采取累加法 for (; sr < row; ++sr) { mixval += smulroadaudioes[sr][sc]; } //最终值不能大于short最大值,因此可能出现溢出 smixaudio[sc] = (short) (mixval); } //short值转为大端存储的双字节序列 for (sr = 0; sr < coloum; ++sr) { realmixaudio[sr * 2] = (byte) (smixaudio[sr] & 0x00ff); realmixaudio[sr * 2 + 1] = (byte) ((smixaudio[sr] & 0xff00) >> 8); } return realmixaudio; } }
注意事项
音频的拼接和混音,有一些是需要注意和处理的。
1. 需要确保a音频和b音频的采样位数一致。例如a音频是16位采样位数,b音频是8位采样位数,那么这时是不能直接拼接的,需要转换成相同的采样位数,才能做后续操作。
2. 需要确保a音频和b音频的采样率一致。这个在录音和歌曲拼接时要特别注意,假如录音的音频频率是16000,歌曲的音频是44100,那么两者也是不能直接拼接的,需要转换成相同的采样率,转换采样率可以使用resample库。
3. 需要确保a音频和b音频的声道数一致。当然这个并不是指单声道和双声道的音频不能合成了,事实上录音音频通常是单声道的,而歌曲通常是双声道的。单声道和双声道音频合成,一般是按双声道为基准,需要将单声道音频转换成双声道音频,转换原理也简单,将单声道的采样点数据多复制一份,比如将单声道的abcd数据转换成双声道的aabbccdd数据。
那么我们可能会有疑问,如果a音频和b音频的采样率位数,采样率,声道数不一样的话,合成后是有效的音频文件吗?这个其实是有效的,同样可以播放,但是会造成合成后的音频不同部分的音频播放速度不一样,例如单声道的a和双声道的b拼接,会造成a部分的播放速度比b的播放速度快一倍,而b的播放速度是正常的。
总结
到这里我想大家已经对音频的裁剪,拼接,混合的原理有了基本的了解了,不过大家可能会发现输出的音频都是wav或者pcm格式的,而我最终需要的是mp3或者aac等格式的音频,那么该如何转换呢?其实这个就是涉及到音频的编码了,mp3编码可以使用第三方库mp3lame,aac编码可以使用android自带的mediacodec实现。
我的github项目 audioedit
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
上一篇: 数据源不定时间段后连接中断问题解决办法
下一篇: 【水上旅游常识】水上旅游应该注意什么