关键词检测方法、装置、设备及存储介质制造方法及图纸

技术编号:35101150 阅读:19 留言:0更新日期:2022-10-01 17:08
本公开的实施方式提供了一种关键词检测方法、装置、设备及存储介质。该方法包括:依据相应的时间步对第一语音进行划分,以获取对应的多个语音片段;根据所述多个语音片段获取概率分布矩阵,并根据概率分布矩阵确定至少一个语音识别序列;根据关键词对应的多个关联字符对至少一个语音识别序列进行模糊匹配处理,得到各语音识别序列的类别;根据各语音识别序列的类别和/或概率分布矩阵,获取第一语音的检测结果,检测结果指示第一语音中包括关键词,或者,检测结果指示第一语音中不包括关键词。无需针对不同的关键词训练不同的检测模型,方案操作比较简单灵活。案操作比较简单灵活。案操作比较简单灵活。

【技术实现步骤摘要】
关键词检测方法、装置、设备及存储介质


[0001]本公开的实施方式涉及人工智能
,更具体地,本公开的实施方式涉及一种关键词检测方法、装置、设备及存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]关键词检测是指在获取语音文件后,检测语音文件中是否有关键词的过程。随着人工智能技术的发展,语音识别被广泛应用于语音搜索、语音审核等场景中。
[0004]目前的关键词检测主要是通过补白模型来实现的,补白的含义是填补空白,在关键词检测领域,补白模型将关键词检测问题考虑为一个逐帧的序列标注问题,关键词定为不同的标注,而一个额外的“补白”标注用来匹配所有非关键词。针对某个关键词,可以构建相应的补白模型,并对补白模型进行训练,使得补白模型具备检测该关键词的能力。然后将待检测语音输入补白模型,即可得到相应的关键词检测结果。
[0005]上述方案由于补白模型是基于固定的关键词进行训练的,因此训练好的补白模型只能检测该关键词,当关键词发生变化时,需要训练新的补白模型才能完成关键词检测,不够灵活。

技术实现思路

[0006]本公开提供一种关键词检测方法、装置、设备及存储介质,以解决目前的关键词检测方案不够灵活的问题。
[0007]第一方面,本公开提供了一种关键词检测方法,包括:
[0008]依据相应的时间步对第一语音进行划分,以获取对应的多个语音片段;
[0009]根据所述多个语音片段获取概率分布矩阵,并根据与所述多个语音片段相对应的所述概率分布矩阵确定至少一个语音识别序列,所述概率分布矩阵中包括各时间步下的概率向量,所述概率向量指示所述时间步下的字符为预设字符集中的各预设字符的概率;
[0010]根据关键词对应的多个关联字符对所述至少一个语音识别序列进行模糊匹配处理,得到各所述语音识别序列的类别,其中,所述类别包括第一类别和第二类别,所述第一类别指示对应的语音识别序列包括至少一个所述关联字符,所述第二类别指示对应的语音识别序列不包括所述关联字符;
[0011]根据各所述语音识别序列的类别和/或所述概率分布矩阵,获取所述第一语音的检测结果,所述检测结果指示所述第一语音中包括所述关键词,或者,所述检测结果指示所述第一语音中不包括所述关键词。
[0012]在一种可能的实施方式中,根据所述多个语音片段获取概率分布矩阵,并根据与所述多个语音片段相对应的所述概率分布矩阵确定至少一个语音识别序列,包括:
[0013]对所述多个语音片段进行特征提取处理,得到特征向量;
[0014]根据编码器对所述特征向量进行编码处理,得到所述多个语音片段的编码特征;
[0015]根据所述编码特征获取所述概率分布矩阵,并根据所述概率分布矩阵确定所述至少一个语音识别序列。
[0016]在一种可能的实施方式中,根据所述编码特征获取所述概率分布矩阵,并根据所述概率分布矩阵确定所述至少一个语音识别序列,包括:
[0017]根据音节分类器对所述编码特征进行音节序列映射处理,得到音节概率分布矩阵,其中,所述音节概率分布矩阵中包括各时间步下的音节概率向量,任意第a个音节概率向量中的第b个元素指示第a个语音片段对应的音节,为预设音节集中的第b个预设音节的概率;
[0018]根据所述音节概率分布矩阵对K个预设音节进行束搜索处理,得到至少一个音节序列,各所述音节序列中包括的音节的数量均为L,所述L为正整数;
[0019]根据所述音节概率分布矩阵和所述至少一个音节序列,获取字概率分布矩阵和至少一个字序列,其中,所述字概率分布矩阵中包括L个字概率向量,任意第c个字概率向量中的第d个元素指示第c个音节对应的字,为预设字集中的第d个预设字的概率;
[0020]其中,所述概率分布矩阵包括所述音节概率分布矩阵和所述字概率分布矩阵,所述语音识别序列包括所述音节序列和所述字序列;
[0021]其中,所述a为正整数,所述b为大于或等于1且小于或等于K的正整数,所述K为所述预设音节集中包括的预设音节的数量,所述K为正整数,所述c为大于或等于1且小于或等于所述L的正整数,所述d为大于或等于1且小于或等于N的正整数,所述N为所述预设字集中包括的预设字的数量。
[0022]在一种可能的实施方式中,针对束搜索处理中的任意一个时间步,若当前音节路径中不包括所述关键词对应的关键音节,且所述当前音节路径与第i个预设音节连接后包括所述关键音节,所述方法还包括:
[0023]对所述当前音节路径和所述第i个预设音节连接后的音节路径进行权重激励。
[0024]在一种可能的实施方式中,根据所述音节概率分布矩阵和所述至少一个音节序列,获取字概率分布矩阵和至少一个字序列,包括:
[0025]根据解码器和字分类器对所述至少一个音节序列和所述编码特征进行解码处理,得到所述字概率分布矩阵;
[0026]根据所述字概率分布矩阵对N个预设字进行束搜索处理,得到所述至少一个字序列,各所述字序列中包括的字的数量均为L。
[0027]在一种可能的实施方式中,针对束搜索处理中的任意一个时间步,若当前字路径中不包括所述关键词对应的关键字,且所述当前字路径与第i个预设字连接后包括所述关键字,所述方法还包括:
[0028]对所述当前字路径和所述第i个预设字连接后的字路径进行权重激励。
[0029]在一种可能的实施方式中,所述多个关联字符包括所述关键词对应的至少一个匹配音节和至少一个匹配字;根据关键词对应的多个关联字符对所述至少一个语音识别序列进行模糊匹配处理,得到各所述语音识别序列的类别,包括:
[0030]根据所述至少一个匹配音节对所述至少一个音节序列进行模糊匹配处理,得到各所述音节序列的类别;
[0031]根据所述至少一个匹配字对所述至少一个字序列进行模糊匹配处理,得到各所述字序列的类别;
[0032]其中,包含所述匹配音节的目标音节序列和包含所述匹配字的目标字序列的类别,为所述第一类别;除所述目标音节序列外的音节序列,以及除所述目标字序列外的字序列的类别,为所述第二类别。
[0033]在一种可能的实施方式中,依据相应的时间步对第一语音进行划分,以获取对应的多个语音片段,包括:
[0034]根据预设时间间隔和预设降采样率对所述第一语音进行分帧处理,得到所述多个语音片段。
[0035]在一种可能的实施方式中,根据各所述语音识别序列的类别和/或所述概率分布矩阵,获取所述第一语音的检测结果,包括:
[0036]响应于各所述语音识别序列的类别均为所述第二类别,确定所述第一语音的检测结果为所述第一语音中不包括所述关键词;
[0037]响应于各所述语音识别序列中包括类别为所述第一类别的所述目标音节序列和所述目标字序列,根据所述音节概率分布矩阵和所述目标音节序列,获取所述目标音节序列的第一得分;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词检测方法,包括:依据相应的时间步对第一语音进行划分,以获取对应的多个语音片段;根据所述多个语音片段获取概率分布矩阵,并根据与所述多个语音片段相对应的所述概率分布矩阵确定至少一个语音识别序列,所述概率分布矩阵中包括各时间步下的概率向量,所述概率向量指示所述时间步下的字符为预设字符集中的各预设字符的概率;根据关键词对应的多个关联字符对所述至少一个语音识别序列进行模糊匹配处理,得到各所述语音识别序列的类别,其中,所述类别包括第一类别和第二类别,所述第一类别指示对应的语音识别序列包括至少一个所述关联字符,所述第二类别指示对应的语音识别序列不包括所述关联字符;根据各所述语音识别序列的类别和/或所述概率分布矩阵,获取所述第一语音的检测结果,所述检测结果指示所述第一语音中包括所述关键词,或者,所述检测结果指示所述第一语音中不包括所述关键词。2.根据权利要求1所述的方法,其中,根据所述多个语音片段获取概率分布矩阵,并根据与所述多个语音片段相对应的所述概率分布矩阵确定至少一个语音识别序列,包括:对所述多个语音片段进行特征提取处理,得到特征向量;根据编码器对所述特征向量进行编码处理,得到所述多个语音片段的编码特征;根据所述编码特征获取所述概率分布矩阵,并根据所述概率分布矩阵确定所述至少一个语音识别序列。3.根据权利要求2所述的方法,其中,根据所述编码特征获取所述概率分布矩阵,并根据所述概率分布矩阵确定所述至少一个语音识别序列,包括:根据音节分类器对所述编码特征进行音节序列映射处理,得到音节概率分布矩阵,其中,所述音节概率分布矩阵中包括各时间步下的音节概率向量,任意第a个音节概率向量中的第b个元素指示第a个语音片段对应的音节,为预设音节集中的第b个预设音节的概率;根据所述音节概率分布矩阵对K个预设音节进行束搜索处理,得到至少一个音节序列,各所述音节序列中包括的音节的数量均为L,所述L为正整数;根据所述音节概率分布矩阵和所述至少一个音节序列,获取字概率分布矩阵和至少一个字序列,其中,所述字概率分布矩阵中包括L个字概率向量,任意第c个字概率向量中的第d个元素指示第c个音节对应的字,为预设字集中的第d个预设字的概率;其中,所述概率分布矩阵包括所述音节概率分布矩阵和所述字概率分布矩阵,所述语音识别序列包括所述音节序列和所述字序列;其中,所述a为正整数,所述b为大于或等于1且小于或等于K的正整数,所述K为所述预设音节集中包括的预设音节的数量,所述K为正整数,所述c为大于或等于1且小于或等于所述L的正整数,所述d为大于或等于1且小于或等于N的正整数,所述N为所述预设字集中包括的预设字的数量。4.根据权利要求3所述的方法,其中,针对束搜索处理中的任意一个时间步,若当前音节路径中不包括所述关键词对应的关键音节,且所述当前音节路径与第i个预设音节连接后包括所述关键音节,所述方法还包括:对所述当前音节路径和所述第i个预设音节连接后...

【专利技术属性】
技术研发人员:张潆心杨玉婷汪文轩杜彬彬李雨珂杨卫强朱浩齐周森
申请(专利权)人:杭州网易智企科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1