基于MFCC和SVM的语音性别识别

基于语音信号的性别识别,推荐你看看这个资源,整体思路挺清晰的,用的是MFCC特征加SVM分类,准确率高达 98.7%,效果蛮不错。

声音信号提特征这块,MFCC还是老熟人了,步骤规范,像预加重、分帧、加窗、FFT 这些全都囊括了,而且解释也挺接地气的。你要是以前搞过语音识别的话,应该能快跟上思路。

分类用了SVM,虽然老派,但胜在稳。尤其是这种线性和非线性混合特征的场景,超平面一画,边界就分得挺干净。如果你之前只玩过决策树或 KNN,可以拿它练练手,换个思路。

另外文章还提到了声音的生理基础,比如声带长度呼气强度,这些听起来挺学术,但其实就是声音频率和强度的来源,跟最终特征还是有大关系的。

如果你想快速上手,还可以看看文末几个配套资源,有源码链接,比如语音信号源代码Matlab 语音信号源码,直接跑一跑,感受下整个流程。

,做语音识别或者声纹的朋友可以收藏一下,尤其是想搞说话人属性识别(比如性别、年龄)的,思路蛮值得借鉴的。如果你用 Python 做项目,可以考虑把 MFCC 部分用librosa重写一下,效率也不错。

pdf 文件大小:519.53KB