This application provides a speech keyword retrieval method, device, device and storage medium. The method includes: extracting target speech features from target speech data of target language; converting target speech features into posterior features through a pre-constructed sparse encoder to obtain posterior features of target speech data, sparse. The coder is trained with the speech features extracted from the unlabeled training speech data of the target language as training samples; the decoding network is constructed based on the posterior features of the target speech data and the posterior features of the target keyword speech data in advance to determine whether the target speech data contains the target keywords or not. The posterior features of labeled keyword speech data are determined by sparse coder. This application can identify a posterior feature with high robustness through sparse encoder. Keyword recognition based on the posterior feature determined by sparse encoder can improve the detection rate and detection accuracy of keywords, and the retrieval effect is good.
【技术实现步骤摘要】
一种语音关键词检索方法、装置、设备及存储介质
本申请涉及信息检索
,尤其涉及一种语音关键词检索方法、装置、设备及存储介质。
技术介绍
语音关键词检索是从语料库中确定出现指定关键词的语音数据,并确定该指定关键词在对应的语音数据中出现的位置。目前主流的语音关键词检索方案主要基于语音识别技术,即将待检索语音数据转换为文本内容,确定文本内容中是否出现指定关键词,若出现指定关键词,进一步确定指定关键词出现的位置,该方案的检索效果完全依赖于语音识别系统的识别效果,而训练一个大量词汇的语音识别系统需要大量的标注数据。近年来,公共安全领域对于某些小语种或方言语种进行关键词检索的需求日益迫切,考虑到特定语种熟悉人员相对有限,缺乏标注数据,因此,无法快速开发相应的语音识别系统,即无法利用主流的语音关键词检索方法进行关键词检索。对此,研究人员提出了语种无关关键词检索方案。目前,语种无关关键词检索方案主要为基于发音样例的关键词检测方法,该方法将携带关键词的语音片段直接与语料库中的语音数据进行声学似然度匹配检索,根据似然度得分确定检索结果,由于该方案与具体语种无关,因此称之为语种无关关键词检索。然而,由于语音数据容易受说话人本身的音色、口音、环境噪声、录音设备等干扰因素的影响,并且由于缺少语言模型的语境信息,基于发音样例的关键词检测方法的检测性能不稳定,检测效果不佳。
技术实现思路
有鉴于此,本申请提供了一种语音关键词检索方法、装置、设备及存储介质,用以解决现有的语种无关关键词检索方案检测性能不稳定,检测效果不佳的问题,其技术方案如下:一种语音关键词检索方法,包括:从目标语种的目 ...
【技术保护点】
1.一种语音关键词检索方法,其特征在于,包括:从目标语种的目标语音数据中提取目标语音特征;通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定。
【技术特征摘要】
1.一种语音关键词检索方法,其特征在于,包括:从目标语种的目标语音数据中提取目标语音特征;通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,获得所述目标语音数据的后验特征,所述稀疏编码器以从所述目标语种的无标注训练语音数据中提取的语音特征为训练样本进行训练得到;基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,所述目标关键词语音数据的后验特征通过所述稀疏编码器确定。2.根据权利要求1所述的语音关键词检索方法,其特征在于,构建所述稀疏编码器的过程包括:从所述目标语种的无标注训练语音数据中提取语音特征作为训练语音特征;以帧为单位对所述训练语音特征按预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述训练语音特征的扩展特征;用所述训练语音特征的扩展特征训练深度神经网络,训练得到的深度神经网络作为所述稀疏编码器。3.根据权利要求2所述的语音关键词检索方法,其特征在于,所述通过预先构建的稀疏编码器将所述目标语音特征转换为后验特征,包括:以帧为单位对所述目标语音特征按所述预设的扩展帧数进行左右扩帧处理,扩帧处理得到的特征作为所述目标语音特征的扩展特征;将所述目标语音特征的扩展特征输入所述预先构建的稀疏编码器,获得所述稀疏编码器输出的、与输入的所述目标语音特征对应的后验特征。4.根据权利要求1所述的语音关键词检索方法,其特征在于,构建所述解码网络的过程包括:用所述无标注训练语音数据的后验特征训练GMM模型,训练得到的GMM模型作为与所述目标关键词无关的模型;用所述目标关键词语音数据的后验特征训练HMM模型,训练得到的HMM模型作为所述目标关键词的模型;将与所述目标关键词无关的模型和所述目标关键词的模型组合,获得所述解码网络。5.根据权利要求4所述的语音关键词检索方法,其特征在于,所述基于所述目标语音数据的后验特征和预先基于目标关键词语音数据的后验特征构建的解码网络,确定所述目标语音数据中是否含有所述目标关键词,包括:通过所述预先基于目标关键词语音数据的后验特征构建的解码网络对所述目标语音数据的后验特征进行逐帧解码,获得解码回溯的最佳路径;基于所述最佳路径确定所述目标语音数据中是否含有所述目标关键词;所述语音关键词检索方法还包括:当所述目标语音数据中含有所述目标关键词时,基于所述最佳路径确定所述目标关键词在所述目标语音数据中出现的...
【专利技术属性】
技术研发人员:方磊,殷兵,刘俊华,方四安,徐承,
申请(专利权)人:合肥讯飞数码科技有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。