https://github.com/libAudioFlux/audioFlux
一个用于音频和音乐分析、特征提取的库,支持数十种时频分析变换方法,以及相应时域、频域数百种特征组合,可以提供给深度学习网络进行训练,用于研究音频领域的分类、分离、音乐信息检索(MIR)、ASR 等各种任务。
pip install audioflux
import numpy as np
import audioflux as af
import matplotlib.pyplot as plt
from audioflux.display import fill_spec
# Get a 220Hz's audio file path
sample_path = af.utils.sample_path('220')
# Read audio data and sample rate
audio_arr, sr = af.read(sample_path)
# Extract mel spectrogram
spec_arr, mel_fre_band_arr = af.mel_spectrogram(audio_arr, num=128, radix2_exp=12, samplate=sr)
spec_arr = np.abs(spec_arr)
# Extract mfcc
mfcc_arr, _ = af.mfcc(audio_arr, cc_num=13, mel_num=128, radix2_exp=12, samplate=sr)
# Display
audio_len = audio_arr.shape[0]
# calculate x/y-coords
x_coords = np.linspace(0, audio_len / sr, spec_arr.shape[1] + 1)
y_coords = np.insert(mel_fre_band_arr, 0, 0)
fig, ax = plt.subplots()
img = fill_spec(spec_arr, axes=ax,
x_coords=x_coords, y_coords=y_coords,
x_axis='time', y_axis='log',
title='Mel Spectrogram')
fig.colorbar(img, ax=ax)
fig, ax = plt.subplots()
img = fill_spec(mfcc_arr, axes=ax,
x_coords=x_coords, x_axis='time',
title='MFCC')
fig.colorbar(img, ax=ax)
plt.show()
https://github.com/libAudioFlux/audioFlux
https://github.com/libAudioFlux/audioFlux#other-examples
1
CMLab 2023-03-09 15:41:29 +08:00
复制了一下代码,ipython 运行,确实出效果
|
2
smallsung 2023-03-09 16:47:55 +08:00
看起来是跨平台的 好评
|
3
tigerstudent 2023-03-09 17:13:28 +08:00
想知道做 ASR 之前,怎么过滤周围的一些杂音,比如说周围人的小声说话声、广播声、喧哗声
|
4
CMLab 2023-03-09 17:19:03 +08:00
@tigerstudent 看具体音源和业务情况,这些噪声是低频信号还是高频信号或者有明显特征的频域分布,这样才能有针对性处理,针对 ASR 而言,最简单的方式就是过一下高通滤波器
|
5
CMLab 2023-03-09 17:24:08 +08:00
@tigerstudent 如果业务要求较高的效果,可以用深度学习方式,针对噪声相关业务数据标注后,走频谱的 mask 的训练
|
6
kevinlq 2023-03-09 22:01:18 +08:00
已 star, 正对对这方面感兴趣,深入学习下
|
7
D2h0VL89HMAU417B 2023-03-10 08:49:14 +08:00
学习
|
8
jememouse 2023-04-15 20:13:04 +08:00 via iPad
不错,最近正在找相关的资料
|