Comparison of environmental sound classification performance of convolutional neural networks according to audio preprocessing methods

IF 0.3 Q4 ACOUSTICS Journal of the Acoustical Society of Korea Pub Date : 2020-01-01 DOI:10.7776/ASK.2020.39.3.143

W. Oh

引用次数: 3

Abstract

: This paper presents the effect of the feature extraction methods used in the audio preprocessing on the classification performance of the Convolutional Neural Networks (CNN). We extract mel spectrogram, log mel spectrogram, Mel Frequency Cepstral Coefficient (MFCC)

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

基于音频预处理方法的卷积神经网络环境声音分类性能比较

本文研究了音频预处理中使用的特征提取方法对卷积神经网络(CNN)分类性能的影响。我们从urbanansound8k数据集中提取了mel谱图、对数mel谱图、mel频倒系数(MFCC)和delta MFCC，这些数据被广泛用于环境声音分类研究。然后我们将数据缩放到3个分布。利用这些数据，我们测试了四种cnn、VGG16和MobileNetV2网络，根据音频特征和缩放进行性能评估。当使用未缩放的对数谱作为音频特征时，识别率最高。虽然这个结果并不适用于所有的音频识别问题，但对于Urbansound8K中包含的环境声音分类是有用的。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊

Journal of the Acoustical Society of Korea ACOUSTICS-

CiteScore

0.60

自引率

50.00%

发文量