一种语音关键词检索方法、装置、设备及存储介质制造方法及图纸

技术编号:19636891 阅读:44 留言:0更新日期:2018-12-01 17:23
本申请提供了一种语音关键词检索方法、装置、设备及存储介质,方法包括:从目标语种的目标语音数据中提取目标语音特征;通过预先构建的稀疏编码器将目标语音特征转换为后验特征,获得目标语音数据的后验特征,稀疏编码器以从目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;基于目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定目标语音数据中是否含有目标关键词,目标关键词语音数据的后验特征通过稀疏编码器确定。本申请通过稀疏编码器能够确定出鲁棒性较高的后验特征,采用基于稀疏编码器确定的后验特征进行关键词识别,能够提升关键词的检出率和检出准确率,检索效果较好。

A Method, Device, Equipment and Storage Media for Voice Keyword Retrieval

This application provides a speech keyword retrieval method, device, device and storage medium. The method includes: extracting target speech features from target speech data of target language; converting target speech features into posterior features through a pre-constructed sparse encoder to obtain posterior features of target speech data, sparse. The coder is trained with the speech features extracted from the unlabeled training speech data of the target language as training samples; the decoding network is constructed based on the posterior features of the target speech data and the posterior features of the target keyword speech data in advance to determine whether the target speech data contains the target keywords or not. The posterior features of labeled keyword speech data are determined by sparse coder. This application can identify a posterior feature with high robustness through sparse encoder. Keyword recognition based on the posterior feature determined by sparse encoder can improve the detection rate and detection accuracy of keywords, and the retrieval effect is good.

【技术实现步骤摘要】
一种语音关键词检索方法、装置、设备及存储介质
本申请涉及信息检索
,尤其涉及一种语音关键词检索方法、装置、设备及存储介质。
技术介绍
语音关键词检索是从语料库中确定出现指定关键词的语音数据,并确定该指定关键词在对应的语音数据中出现的位置。目前主流的语音关键词检索方案主要基于语音识别技术,即将待检索语音数据转换为文本内容,确定文本内容中是否出现指定关键词,若出现指定关键词,进一步确定指定关键词出现的位置,该方案的检索效果完全依赖于语音识别系统的识别效果,而训练一个大量词汇的语音识别系统需要大量的标注数据。近年来,公共安全领域对于某些小语种或方言语种进行关键词检索的需求日益迫切,考虑到特定语种熟悉人员相对有限,缺乏标注数据,因此,无法快速开发相应的语音识别系统,即无法利用主流的语音关键词检索方法进行关键词检索。对此,研究人员提出了语种无关关键词检索方案。目前,语种无关关键词检索方案主要为基于发音样例的关键词检测方法,该方法将携带关键词的语音片段直接与语料库中的语音数据进行声学似然度匹配检索,根据似然度得分确定检索结果,由于该方案与具体语种无关,因此称之为语种无关关键词检索。然而,由于语音数据容易受说话人本身的音色、口音、环境噪声、录音设备等干扰因素的影响,并且由于缺少语言模型的语境信息,基于发音样例的关键词检测方法的检测性能不稳定,检测效果不佳。
技术实现思路
有鉴于此,本申请提供了一种语音关键词检索方法、装置、设备及存储介质,用以解决现有的语种无关关键词检索方案检测性能不稳定,检测效果不佳的问题,其技术方案如下:一种语音关键词检索方法,包括:从目标语种的目标语音数据中提取目标语音特征;通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定。其中,构建所述稀疏编码器的过程包括:从所述目标语种的无标注训练语音数据中提取语音特征作为训练语音特征;以帧为单位对所述训练语音特征按预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述训练语音特征的扩展特征;用所述训练语音特征的扩展特征训练深度神经网络,训练得到的深度神经网络作为所述稀疏编码器。其中,所述通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,包括:以帧为单位对所述目标语音特征按所述预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述目标语音特征的扩展特征;将所述目标语音特征的扩展特征输入所述预先构建的稀疏编码器,获得所述稀疏编码器输出的、与输入的所述目标语音特征对应的后验特征。其中,构建所述解码网络的过程包括:用所述无标注训练语音数据的后验特征训练GMM模型,训练得到的GMM模型作为与所述目标关键词无关的模型;用所述目标关键词语音数据的后验特征训练HMM模型,训练得到的模型作为所述目标关键词的模型;将与所述目标关键词无关的模型和所述目标关键词的模型组合,获得所述解码网络。其中,所述基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,包括:通过预先基于目标关键词语音数据的后验特征构建的解码网络对所述目标语音数据的后验特征进行逐帧解码,获得解码回溯的最佳路径;基于所述最佳路径确定所述目标语音数据中是否含有所述目标关键词;所述语音关键词检索方法还包括:当所述目标语音数据中含有所述目标关键词时,基于所述最佳路径确定所述目标关键词在所述目标语音数据中出现的位置。一种关键词检索装置,包括:语音特征提取模块、后验特征确定模块和检测结果确定模块;所述语音特征提取模块,用于从目标语种的目标语音数据中提取目标语音特征;所述后验特征确定模块,用于通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;所述检测结果确定模块,用于基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定。所述语音关键词检索装置还包括:稀疏编码器构建模块;所述稀疏编码器构建模块,用于从所述目标语种的无标注训练语音数据中提取语音特征作为训练语音特征,以帧为单位对所述训练语音特征按预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述帧训练语音特征的扩展特征,用所述训练语音特征的扩展特征训练深度神经网络,训练得到的深度神经网络作为所述稀疏编码器。其中,所述后验特征确定模块包括:扩帧处理子模块和后验特征确定子模块;所述扩帧处理子模块,用于以帧为单位对所述目标语音特征按所述预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述目标语音特征的扩展特征;所述后验特征确定子模块,用于将所述目标语音特征的扩展特征输入所述预先构建的稀疏编码器,获得所述稀疏编码器输出的、与输入的目标语音特征对应的后验特征。所述语音关键词检索装置包括:解码网络构建模块;所述解码网络构建模块,用于用所述无标注训练语音数据的后验特征训练GMM模型,训练得到的GMM模型作为与所述目标关键词无关的模型,用所述目标关键词语音数据的后验特征训练HMM模型,训练得到的模型作为所述目标关键词的模型,将与所述目标关键词无关的模型和所述目标关键词的模型组合,获得所述解码网络。其中,所述检索结果确定模块,包括:解码子模块和检索结果确定子模块;所述解码子模块,用于通过预先基于目标关键词语音数据的后验特征构建的解码网络对所述目标语音数据的后验特征进行逐帧解码,获得解码回溯的最佳路径;所述检测结果确定子模块,用于基于所述最佳路径确定所述目标语音数据中是否含有所述目标关键词,还用于当所述目标语音数据中含有所述目标关键词时,基于所述最佳路径确定所述目标关键词在所述目标语音数据中出现的位置。一种语音关键词检索设备,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,所述程序具体用于:从目标语种的目标语音数据中提取目标语音特征;通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定。一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述语音关键词检索方法的各个步骤。经由上述方案可知,本申请提供的语音关键词检索方法、装置、设备及存储介质,首先从目标语种的目标语音数据中提取目标语音特征,然后通过预先构建的稀疏编码器将目标语音特征转换为后验特征,最后基于目本文档来自技高网...

【技术保护点】
1.一种语音关键词检索方法,其特征在于,包括:从目标语种的目标语音数据中提取目标语音特征;通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定。

【技术特征摘要】
1.一种语音关键词检索方法,其特征在于,包括:从目标语种的目标语音数据中提取目标语音特征;通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定。2.根据权利要求1所述的语音关键词检索方法,其特征在于,构建所述稀疏编码器的过程包括:从所述目标语种的无标注训练语音数据中提取语音特征作为训练语音特征;以帧为单位对所述训练语音特征按预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述训练语音特征的扩展特征;用所述训练语音特征的扩展特征训练深度神经网络,训练得到的深度神经网络作为所述稀疏编码器。3.根据权利要求2所述的语音关键词检索方法,其特征在于,所述通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,包括:以帧为单位对所述目标语音特征按所述预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述目标语音特征的扩展特征;将所述目标语音特征的扩展特征输入所述预先构建的稀疏编码器,获得所述稀疏编码器输出的、与输入的所述目标语音特征对应的后验特征。4.根据权利要求1所述的语音关键词检索方法,其特征在于,构建所述解码网络的过程包括:用所述无标注训练语音数据的后验特征训练GMM模型,训练得到的GMM模型作为与所述目标关键词无关的模型;用所述目标关键词语音数据的后验特征训练HMM模型,训练得到的HMM模型作为所述目标关键词的模型;将与所述目标关键词无关的模型和所述目标关键词的模型组合,获得所述解码网络。5.根据权利要求4所述的语音关键词检索方法,其特征在于,所述基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,包括:通过所述预先基于目标关键词语音数据的后验特征构建的解码网络对所述目标语音数据的后验特征进行逐帧解码,获得解码回溯的最佳路径;基于所述最佳路径确定所述目标语音数据中是否含有所述目标关键词;所述语音关键词检索方法还包括:当所述目标语音数据中含有所述目标关键词时,基于所述最佳路径确定所述目标关键词在所述目标语音数据中出现的...

【专利技术属性】
技术研发人员:方磊殷兵刘俊华方四安徐承
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1