【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质
[0001]本申请实施例涉及互联网
,涉及但不限于一种语音识别方法、装置、设备及存储介质。
技术介绍
[0002]语音关键词匹配技术旨在基于参考语音,识别出一段语音中特定的词语,语音关键词匹配技术在语音识别领域一直都是研究的热点。目前,语音关键词匹配技术主要分为传统方法与深度学习方法。
[0003]传统方法主要包括动态时间归整(DTW,Dynamic Time Warping)方法与相关变体;深度学习方法则是通过有监督或无监督的方法训练得到嵌入特征提取器,基于嵌入特征提取器提取音频的Mel频率倒谱系数(MFCC,Mel Frequency Cepstrum Coefficient),并通过求取目标音频与标注音频的MFCC特征之间的相似度,从而判断目标音频是否包含关键词。
[0004]但是,上述传统方法的计算量大,计算准确率容易受到外界环境影响,从而会存在识别准确率较低的问题;深度学习方法存在表达能力有限,且识别准确率低的问题。
技术实现思路
[0005 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:对待识别语音信号进行滑动窗截取,得到至少两个子语音信号;通过预先训练的嵌入特征表示系统,对每一子语音信号进行语音特征提取,得到子语音嵌入表示特征;其中,所述嵌入特征表示系统包括第一级特征提取网络和第二级特征提取网络;所述第一级特征提取网络用于对所述子语音信号进行第一级语音特征提取;所述第二级特征提取网络用于基于所述第一级语音特征提取时得到的第一级语音特征,对所述子语音信号进行第二级语音特征提取,所述第二级语音特征提取的特征提取精度大于所述第一级语音特征提取的特征提取精度;获取预设比对词库中的每一比对词的嵌入表示特征;根据所述子语音嵌入表示特征和所述每一比对词的嵌入表示特征,对每一所述子语音信号进行语音识别,得到子语音识别结果;根据所述至少两个子语音信号的子语音识别结果,确定所述待识别语音信号对应的语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述对待识别语音信号进行滑动窗截取,得到至少两个子语音信号,包括:采用具有预设步长的滑动窗,对所述待识别语音信号进行分帧处理,得到至少两个子语音信号,所述至少两个子语音信号具有相同的帧长。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取预设窗函数;采用所述预设窗函数对每一所述子语音信号进行平滑处理,对应得到至少两个平滑处理后的子语音信号;所述对每一子语音信号进行语音特征提取,得到子语音嵌入表示特征,包括:对每一平滑处理后的子语音信号进行语音特征提取,得到所述子语音嵌入表示特征。4.根据权利要求1所述的方法,其特征在于,所述通过预先训练的嵌入特征表示系统,对每一子语音信号进行语音特征提取,得到子语音嵌入表示特征,包括:将每一所述子语音信号输入至所述第一级特征提取网络中,通过所述第一级特征提取网络,对所述子语音信号进行第一级嵌入特征提取,得到具有第一特征提取精度的嵌入表示特征;将所述具有第一特征提取精度的嵌入表示特征,输入至所述第二级特征提取网络中,通过所述第二级特征提取网络,对所述子语音信号进行第二级嵌入特征提取,得到具有第二特征提取精度的嵌入表示特征;所述第一特征提取精度小于所述第二特征提取精度。5.根据权利要求1所述的方法,其特征在于,所述根据所述子语音嵌入表示特征和所述每一比对词的嵌入表示特征,对每一所述子语音信号进行语音识别,得到子语音识别结果,包括:确定所述子语音嵌入表示特征与所述每一比对词的嵌入表示特征之间的相似度;当所述子语音嵌入表示特征与任一比对词的嵌入表示特征之间的相似度大于相似度阈值时,确定所述子语音信号的子语音识别结果为特定识别结果;所述特定识别结果用于表征:所述子语音信号对应的子语音中含有与所述预设比对词库中的比对词具有相同属性的语音词。
6.根据权利要求5所述的方法,其特征在于,所述根据所述至少两个子语音信号的子语音识别结果,确定所述待识别语音信号对应的语音识别结果,包括:当任一子语音信号的子语音识别结果为所述特定识别结果时,确定所述待识别语音信号对应的语音识别结果为所述特定识别结果。7.根据权利要求1所述的方法,其特征在于,所述预设比对词库中包括每一所述比对词的比对词语音信号;所述获取预设比对词库中的每一比对词的嵌入表示特征,包括:通过所述预先训练的嵌入特征表示系统,对每一所述比对词的比对词语音信号进行语音特征提取,得到每一所述比对词的嵌入表示特征。8.根据权利要求1至7任一项所述的方法,其特征在于,所述嵌入特征表示系统通过以下方式进行训练:将无标注语音数据集中的第一语音数据输入至所述第一级特征提取网络中,通过对比学习方式对所述第一级特征提取网络进行训练,得到训练后的第一级特征提取网络;将单字语音数据集中的第二语音数据输入至所述训练后的第一级特征提取网络中,通过所述训练后的第一级特征提取网络对所述第二语音数据进行第一级嵌入特征提取,得到具有第三特征提取精度的样本嵌入表示特征;将所述具有第三特征提取精度的样本嵌入表示特征输入至所述第二级特征提取网络中,通过所述第二级特征提取网络对所述...
【专利技术属性】
技术研发人员:刘名乐,杨栋,俞一鹏,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。