基于MFCC和SVM的语音性别识别
基于语音信号的性别识别,推荐你看看这个资源,整体思路挺清晰的,用的是MFCC特征加SVM分类,准确率高达 98.7%,效果蛮不错。
声音信号提特征这块,MFCC
还是老熟人了,步骤规范,像预加重、分帧、加窗、FFT 这些全都囊括了,而且解释也挺接地气的。你要是以前搞过语音识别的话,应该能快跟上思路。
分类用了SVM,虽然老派,但胜在稳。尤其是这种线性和非线性混合特征的场景,超平面
一画,边界就分得挺干净。如果你之前只玩过决策树或 KNN,可以拿它练练手,换个思路。
另外文章还提到了声音的生理基础,比如声带长度和呼气强度,这些听起来挺学术,但其实就是声音频率和强度的来源,跟最终特征还是有大关系的。
如果你想快速上手,还可以看看文末几个配套资源,有源码链接,比如语音信号源代码和Matlab 语音信号源码,直接跑一跑,感受下整个流程。
,做语音识别或者声纹的朋友可以收藏一下,尤其是想搞说话人属性识别(比如性别、年龄)的,思路蛮值得借鉴的。如果你用 Python 做项目,可以考虑把 MFCC 部分用librosa
重写一下,效率也不错。
519.53KB
文件大小:
评论区