基于语音识别的MFCC特征提取
基于语音识别的 MFCC 特征提取源码挺实用的,尤其是你在搞 ASR 系统的时候,用来提取语音的核心特征,效率高还挺靠谱。它是把声音信号一步步搞成一组数字向量,方便后续,基本上每个语音识别项目都会用到。
你可以从预加重、分帧、加窗、做 FFT,再到梅尔滤波、取对数、DCT 这些步骤,全流程都有实现,注释也比较清楚。新手跟着跑一下流程,熟悉得快,老手想优化某个环节也方便下手。
而且源码里的结构还不错,各模块分得挺清楚的,像pre_emphasis
、frame_signal
、mel_filterbank
这些函数都能单独调试。你要是搞多通道、带降噪的项目,直接在这基础上改就行。
嗯对了,记得别忽略了动态特征那部分,delta
和delta-delta
加上之后识别效果提升蛮的,尤其配合DNN
或者HMM
模型效果更好。
如果你在搞语音识别项目,尤其是要自己动手实现底层逻辑,那这份源码可以直接上手用,或者当作改进的基准。
3.82MB
文件大小:
评论区