语音关键词检测的方法、装置、设备及存储介质制造方法及图纸

技术编号:35460424 阅读:19 留言:0更新日期:2022-11-03 12:27
本发明专利技术提供了一种语音关键词检测的方法、装置、设备及存储介质,涉及语音识别技术领域;方法包括:对所述待处理的语音数据进行处理,得到语音声学特征;将所述语音声学特征输入预设的语音编码网络模型,得到语音声学特征向量;在预设的存储路径下取出泛语义文本空间向量;将所述泛语义文本空间向量和所述语音声学特征向量进行注意力计算,得到声学语义上下文特征向量;将所述声学语义上下文特征向量输入到预设的关键词分类模型中,得到预测的关键词。本发明专利技术实施例的语音关键词检测的方法、设备及存储介质能提升关键词检测的效果。备及存储介质能提升关键词检测的效果。备及存储介质能提升关键词检测的效果。

【技术实现步骤摘要】
语音关键词检测的方法、装置、设备及存储介质


[0001]本专利技术实施例涉及但不限于语音识别
,尤其涉及一种语音关键词检测的方法、装置、设备及存储介质。

技术介绍

[0002]语音关键词检测主要完成在连续语音流中进行预先定义的关键词检索的过程,传统的关键词检索方法包括补白模型、样例匹配和基于大规模语音识别的文本检索等,但是其缺陷在于主要基于声学特征的高层特征序列匹配或者是基于大规模语音识别的文本级别字符串匹配,缺失了语音中语义信息建模。近年来,随着深度学习技术的发展,学者们提出了多种融合声学特征和关键词文本特征的关键词检索系统,但是无论是根据进行声学特征和语言学特征融合模型训练,还是基于二者进行相似度计算判断,均是对关键词列表的循环计算匹配,模型计算量大且由于对于关键词的单一语音特征提取,也会限制命令词表述的多样性,关键词检索的精度较低,因此,相关技术中,语音关键词检测的效果差。

技术实现思路

[0003]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0004]本专利技术实施例提供了一种语音关键词检测的方法、装置、设备及存储介质,能提升关键词检测的效果。
[0005]第一方面,本专利技术实施例提供了一种语音关键词检测的方法,包括:
[0006]对所述待处理的语音数据进行处理,得到语音声学特征;
[0007]将所述语音声学特征输入预设的语音编码网络模型,得到语音声学特征向量;
[0008]在预设的存储路径下取出泛语义文本空间向量;
[0009]将所述泛语义文本空间向量和所述语音声学特征向量进行注意力计算,得到声学语义上下文特征向量;
[0010]将所述声学语义上下文特征向量输入到预设的关键词分类模型中,得到预测的关键词。
[0011]根据本专利技术第一方面的一些实施例,所述泛语义文本空间向量由多个泛化语义特征向量拼接得到;所述将所述泛语义文本空间向量和所述语音声学特征向量进行注意力计算,得到声学语义上下文特征向量,包括:
[0012]将所述泛语义文本空间向量和所述语音声学特征向量输入预设的注意力模型中进行注意力计算,得到与多个所述泛化语义特征向量一一对应的多个加权分布数据;
[0013]将多个所述加权分布数据组合得到所述声学语义上下文特征向量。
[0014]根据本专利技术第一方面的一些实施例,所述关键词分类模型包括前向神经网络层和归一化网络层;所述将所述声学语义上下文特征向量输入到预设的关键词分类模型中,得到预测的关键词,包括:
[0015]将所述声学语义上下文特征向量包括的多个所述加权分布数据输入所述前向神经网络层,得到概率更新数据;
[0016]通过所述归一化网络层对所述概率更新数据进行分类预测,得到与多个预设关键词一一对应的多个分类概率;
[0017]从多个所述分类概率中选取出最大的所述分类概率对应的预设关键词作为所述语音数据的关键词。
[0018]根据本专利技术第一方面的一些实施例,所述对所述待处理的语音数据进行处理,得到语音声学特征,包括:对所述语音数据进行基础声学特征提取,得到语音基础声学特征;
[0019]对应的,所述将所述语音声学特征输入预设的语音编码网络模型,得到语音声学特征向量,包括:
[0020]将所述语音基础声学特征输入到所述语音编码网络模型中进行高维特征提取,得到所述语音声学特征向量。
[0021]根据本专利技术第一方面的一些实施例,所述泛语义文本空间向量通过如下步骤计算得到:
[0022]获取预设的语言表征模型、关键词样本序列集以及负样本序列集;
[0023]通过所述语言表征模型对所述关键词样本序列集进行特征提取,得到多个关键词泛化特征向量;
[0024]通过所述语言表征模型对所述负样本序列集进行特征提取,得到至少一个非关键词特征向量;
[0025]将多个所述关键词泛化特征向量和至少一个所述非关键词特征向量拼接,得到所述泛语义文本空间向量。
[0026]根据本专利技术第一方面的一些实施例,所述通过所述语言表征模型对所述关键词样本序列集进行特征提取,得到多个关键词泛化特征向量,包括:
[0027]将所述关键词样本序列集中每一关键词样本序列分别输入所述语言表征模型;
[0028]通过所述语言表征模型对所述关键词样本序列的关键词对应的泛化样本集中每一泛化样本进行特征提取,得到泛化语义特征集;
[0029]通过所述语言表征模型对所述泛化语义特征集进行平均处理,得到每一所述关键词样本序列对应的关键词泛化特征向量。
[0030]根据本专利技术第一方面的一些实施例,所述通过所述语言表征模型对所述负样本序列集进行特征提取,得到至少一个非关键词特征向量,包括:
[0031]将所述负样本序列集中每一负样本序列分别输入所述语言表征模型;
[0032]通过所述语言表征模型对所述负样本序列进行非关键词随机抽取,得到多个非关键词数据;
[0033]通过所述语言表征模型对多个所述非关键词数据进行特征提取并求平均,得到所述非关键词特征向量。
[0034]第二方面,本专利技术实施例还提供一种语音关键词检测的装置,包括:
[0035]预处理模块,用于对所述待处理的语音数据进行处理,得到语音声学特征;
[0036]声学特征提取模块,用于将所述语音声学特征输入预设的语音编码网络模型,得到语音声学特征向量;
[0037]获取模块,用于在预设的存储路径下取出泛语义文本空间向量;
[0038]注意力计算模块,用于将所述泛语义文本空间向量和所述语音声学特征向量进行注意力计算,得到声学语义上下文特征向量;
[0039]分类模块,用于将所述声学语义上下文特征向量输入到预设的关键词分类模型中,得到预测的关键词。
[0040]第三方面,本专利技术实施例还提供了一种电子设备,包括:至少一个处理器,以及,与至少一个处理器通信连接的存储器;其中,存储器存储有指令,指令被至少一个处理器执行,以使至少一个处理器执行指令时实现如第一方面任意一项所述的语音关键词检测的方法。
[0041]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行第一方面任意一项所述的语音关键词检测的方法。
[0042]本专利技术上述实施例至少具有如下有益效果:通过将提取得到的语音声学特征和泛语义文本空间向量进行注意力计算得到两者之间的相关性并通过关键词分类模型进行预测得到关键词,使得整个关键词检索过程中融合了文本和语音两方面的特征且结合预先得到的泛化后的泛语义文本空间向量,因此在关键词预测的过程中既减少额外的计算量又能提升关键词检测的精度。因此,和现有技术相比,本专利技术实施例能提升关键词检索的效果。
[0043]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音关键词检测的方法,其特征在于,所述方法包括:对所述待处理的语音数据进行处理,得到语音声学特征;将所述语音声学特征输入预设的语音编码网络模型,得到语音声学特征向量;在预设的存储路径下取出泛语义文本空间向量;将所述泛语义文本空间向量和所述语音声学特征向量进行注意力计算,得到声学语义上下文特征向量;将所述声学语义上下文特征向量输入到预设的关键词分类模型中,得到预测的关键词。2.根据权利要求1所述的语音关键词检测的方法,其特征在于,所述泛语义文本空间向量由多个泛化语义特征向量拼接得到;所述将所述泛语义文本空间向量和所述语音声学特征向量进行注意力计算,得到声学语义上下文特征向量,包括:将所述泛语义文本空间向量和所述语音声学特征向量输入预设的注意力模型中进行注意力计算,得到与多个所述泛化语义特征向量一一对应的多个加权分布数据;将多个所述加权分布数据组合得到所述声学语义上下文特征向量。3.根据权利要求2所述的语音关键词检测的方法,其特征在于,所述关键词分类模型包括前向神经网络层和归一化网络层;所述将所述声学语义上下文特征向量输入到预设的关键词分类模型中,得到预测的关键词,包括:将所述声学语义上下文特征向量包括的多个所述加权分布数据输入所述前向神经网络层,得到概率更新数据;通过所述归一化网络层对所述概率更新数据进行分类预测,得到与多个预设关键词一一对应的多个分类概率;从多个所述分类概率中选取出最大的所述分类概率对应的预设关键词作为所述语音数据的关键词。4.根据权利要求1所述的语音关键词检测的方法,其特征在于,所述对所述待处理的语音数据进行处理,得到语音声学特征,包括:对所述语音数据进行基础声学特征提取,得到语音基础声学特征;对应的,所述将所述语音声学特征输入预设的语音编码网络模型,得到语音声学特征向量,包括:将所述语音基础声学特征输入到所述语音编码网络模型中进行高维特征提取,得到所述语音声学特征向量。5.根据权利要求1所述的语音关键词检测的方法,其特征在于,所述泛语义文本空间向量通过如下步骤计算得到:获取预设的语言表征模型、关键词样本序列集以及负样本序列集;通过所述语言表征模型对所述关键词样本序列集进行特征提取,得到多个关键词泛化特征向...

【专利技术属性】
技术研发人员:张之勇王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1