一种特征提取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:32583000 阅读:29 留言:0更新日期:2022-03-09 17:14
本申请涉及一种特征提取方法、装置、电子设备和存储介质,应用于8K升16K采样率的语音,该方法包括:在特征提取过程中,获取高频部分多维MFCC特征能量值;判断所述高频部分多维MFCC特征能量值是否满足置零条件的特征;若判断结果为所述高频部分多维MFCC特征能量值满足所述置零条件的特征,则将所述特征能量值对应的维度设置为可能置零的标注位。本申请通过对比不同采样率的特征差异,将40维中代表高频部分,就是最后7位的部分数值进行置零,从而优化特征提取的方法来弥补损失性能,通过优化升采样数据特征提取方法,使得转换的特征表达更加接近训练的语音数据,提升模型性能,特征的兼容约泛化,对数据的要求会相对降低,减少数据采集和处理的成本。据采集和处理的成本。据采集和处理的成本。

【技术实现步骤摘要】
一种特征提取方法、装置、电子设备和存储介质


[0001]本申请涉及语音特征提取
,特别是涉及一种特征提取方法、装置、电子设备和存储介质。

技术介绍

[0002]目前主流的语音识别系统理论上是支持多种不同的采样率的语音信号,但是主流语音系统的声学模型大部分只支持8k(8000)和16k(16000)采样率两种的信号。对于外部传入不是这两种的语音的信息,往往通过一些音频转换的方法,将语音进行升采样或者是降采样。比如48k语音降采样到16k,8k语音升采样到16k等。这样做的好处可以节省系统的开销,如果不采取转换的方式,理论上需要不同采样率的率的模型来识别不同采样率的语音。另一方面,只选择一种或者两种语音做声学模型训练的方法,减少数据采集的成本,无需搜集各类采样率的语音,只需收集某类采样率的语音。但是这种方法存在问题是,当与声学模型训练数据匹配测试语音(常见16k或者8k)识别性能较好,但是与训练数据不匹配的语音时,性能相对差一些。比如,使用8k升采样到16k的语音去测试16k模型比8k模型测性能要差一些。
专利技术内容
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征提取方法,其特征在于,应用于8K升16K采样率的语音,包括:在特征提取过程中,获取高频部分多维MFCC特征能量值;判断所述高频部分多维MFCC特征能量值是否满足置零条件的特征;若判断结果为所述高频部分多维MFCC特征能量值满足所述置零条件的特征,则将所述特征能量值对应的维度设置为可能置零的标注位。2.根据权利要求1所述的一种特征提取方法,其特征在于,所述判断所述高频部分多维MFCC特征能量值是否满足置零条件的特征,包括:比较高频部分多维MFCC特征能量值与多维预设阈值的大小;若所述特征能量值小于预设阈值,则满足所述置零条件的特征;若所述特征能量值大于等于预设阈值,则不满足所述置零条件的特征。3.根据权利要求1所述的一种特征提取方法,其特征在于,所述高频部分的维度是7维。4.根据权利要求3所述的一种特征提取方法,其特征在于,所述方法还包括:若当前维度的特征能量值小于当前维度的预设阈值,且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值,则将所述当前维度的标注位置零。5.根据权利要求4所述的一种特征提取方法,其特征在于,所述方法包括:若1维的特征能量值小于1维的预设阈值,且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值,则将1维的标注位置零;若2维的特征能量值小于2维的预设阈值,且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值,则将2维的标注位置零;若3维的特征能量值小于3维的预设阈值,且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值,则将3维的标注位置零;若4维的特征能量值小于4维的预设阈值,且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值,则将...

【专利技术属性】
技术研发人员:沈华东周雷李轶杰梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1