基于语音识别的MFCC特征提取

基于语音识别的 MFCC 特征提取源码挺实用的,尤其是你在搞 ASR 系统的时候,用来提取语音的核心特征,效率高还挺靠谱。它是把声音信号一步步搞成一组数字向量,方便后续,基本上每个语音识别项目都会用到。

你可以从预加重、分帧、加窗、做 FFT,再到梅尔滤波、取对数、DCT 这些步骤,全流程都有实现,注释也比较清楚。新手跟着跑一下流程,熟悉得快,老手想优化某个环节也方便下手。

而且源码里的结构还不错,各模块分得挺清楚的,像pre_emphasisframe_signalmel_filterbank这些函数都能单独调试。你要是搞多通道、带降噪的项目,直接在这基础上改就行。

嗯对了,记得别忽略了动态特征那部分,deltadelta-delta加上之后识别效果提升蛮的,尤其配合DNN或者HMM模型效果更好。

如果你在搞语音识别项目,尤其是要自己动手实现底层逻辑,那这份源码可以直接上手用,或者当作改进的基准。

rar 文件大小:3.82MB