欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python librosa.frames_to_time()和librosa.samples_like()的用法

程序员文章站 2022-03-25 11:15:17
...

本文要实现的目标为:

假如:1个音频的总帧数=170880,采样率sr=48000,持续秒数=3.560000
假设音频数据为y:
y = [-0.00856018 -0.00930786 -0.00827026 ..., -0.03897095 -0.03567505 -0.03329468]

要转化成的时间为times:
times = [  0.00000000e+00   2.08333333e-05   4.16666667e-05 ...,   3.55993750e+00
   3.55995833e+00   3.55997917e+00]

即要实现:第1个音频帧y[0]对应的时间为0.00000000e+00,最后1个音频帧y[-1]对应的时间为3.55997917e+00。

采样使用y每个元素的下标除以采样率sr获取帧与帧的时间间隔的方法可能会更简单,本文仅是使用librosa.frames_to_time和librosa.samples_like来实现,代码在Ubuntu中实现,如下。

import librosa

audio_full_name = r'/mnt/hgfs/win10_linux_shared_file/audio_larger.wav'
y,sr = librosa.load(audio_full_name,sr=None)#y为ndarray类型
print('y = %s'%y)
print('总帧数=%d,采样率=%d,持续秒数=%f'%(len(y),sr,len(y)/sr))
samples = librosa.samples_like(y,hop_length=1)
print('samples = %s'%samples)
times = librosa.frames_to_time(samples,sr=sr,hop_length=1)
print(len(times))
print('times = %s'%times)

代码中,librosa.samples_like仅用来获取音频帧的下标,librosa.frames_to_time用来根据音频帧的下标转化为时间,这两个函数的返回值是ndarray类型。

代码运行结果如下:

y = [-0.00856018 -0.00930786 -0.00827026 ..., -0.03897095 -0.03567505 -0.03329468]
总帧数=170880,采样率=48000,持续秒数=3.560000
samples = [     0      1      2 ..., 170877 170878 170879]
170880
times = [  0.00000000e+00   2.08333333e-05   4.16666667e-05 ...,   3.55993750e+00 3.55995833e+00   3.55997917e+00]