语音检测方法、装置、设备和存储介质制造方法及图纸

技术编号:33079900 阅读:20 留言:0更新日期:2022-04-15 10:30
本申请涉及计算机处理技术领域,提供一种语音检测方法、装置、设备、可读存储介质和程序产品,可以在保证关键词检测效率的情况下,准确地确认关键词在语音中的位置,包括:对待检测语音中的各个语音帧对应的候选音素可能度;基于语音帧对应的候选音素可能度过滤音素空白的语音帧,以基于存在音素的语音帧对应的候选音素可能度,得到待检测语音对应的识别音素序列;基于目标检测词的音素序列对应的语音帧序列在待检测语音的语音帧序列中的位置,确定待检测语音中目标检测词对应的提取语音帧序列;获取提取语音帧序列中各个提取语音帧对应的音素可能度分布;基于提取语音帧对应的音素可能度分布,得到待检测语音对应的语音检测结果。果。果。

【技术实现步骤摘要】
语音检测方法、装置、设备和存储介质


[0001]本申请涉及计算机处理
,特别是涉及一种语音检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]随着智能化时代的到来,人工智能技术被广泛地应用在各个领域,例如图像识别领域、语音识别领域。基于人工智能技术的语音识别所包括的其中一个技术分支是关键词检测(Keyword Spotting);关键词检测可被应用于语音唤醒系统中,无需用户手动操控设备,实现操控智能化,例如语音唤醒系统检测到用户发出与关键词对应的语音后,按照用户的语音指令直接操控车载设备或者家居设备等。
[0003]当需要对语音进行检测时,可以对语音进行特征提取,基于提取得到的特征得到语音检测结果,然而目前的语言检测方法,存在检测效率低以及语音检测准确度低的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种语音检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]一种语音检测方法,所述方法包括:对待检测语音中的各个语音帧进行本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音检测方法,其特征在于,所述方法包括:对待检测语音中的各个语音帧进行特征提取,得到所述语音帧对应的特征向量,并对各个语音帧对应的特征向量按照对应的语音帧顺序进行排序,得到特征向量序列;基于所述特征向量序列进行音素识别,得到各个所述语音帧对应的候选音素可能度;基于所述语音帧对应的候选音素可能度过滤音素空白的语音帧,以基于存在音素的语音帧对应的候选音素可能度,得到所述待检测语音对应的识别音素序列;将从所述识别音素序列中选取的目标检测词对应的音素序列,作为检测词音素序列,并基于所述检测词音素序列对应的语音帧序列在所述待检测语音的语音帧序列中的位置,确定所述待检测语音中所述目标检测词对应的提取语音帧序列;获取所述提取语音帧序列中各个提取语音帧对应的音素可能度分布;所述提取语音帧对应的音素可能度分布是根据所述提取语音帧对应的特征向量分别进行语音帧音素检测得到的;基于所述提取语音帧对应的音素可能度分布,得到所述待检测语音对应的语音检测结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述检测词音素序列对应的语音帧序列在所述待检测语音的语音帧序列中的位置,确定所述待检测语音中所述目标检测词对应的提取语音帧序列,包括:确定所述检测词音素序列对应的语音帧序列在所述待检测语音的起始位置以及终止位置;将所述起始位置对应的前向位置作为第一提取位置,将所述终止位置对应的后向位置作为第二提取位置;将所述待检测语音中位于所述第一提取位置以及所述第二提取位置之间的语音帧序列作为所述目标检测词对应的提取语音帧序列。3.根据权利要求2所述的方法,其特征在于,所述将所述起始位置对应的前向位置作为第一提取位置,将所述终止位置对应的后向位置作为第二提取位置,包括:将所述待检测语音中音素空白的语音帧的数量作为空白帧数量;基于所述空白帧数量,确定语音帧扩展数量;所述语音帧扩展数量与所述空白帧数量成正相关关系;将与所述起始位置的距离为所述语音帧扩展数量的前向位置作为第一提取位置,将与所述终止位置的距离为所述语音帧扩展数量的后向位置作为第二提取位置。4.根据权利要求1所述的方法,其特征在于,所述候选音素可能度包括音素空白对应的可能度;所述基于所述语音帧对应的候选音素可能度过滤音素空白的语音帧,以基于存在音素的语音帧对应的候选音素可能度,得到所述待检测语音对应的识别音素序列,包括:将音素空白对应的可能度大于可能度阈值的语音帧,作为音素空白的语音帧;过滤音素空白的语音帧,得到解码语音帧,获取基于解码语音帧对应的候选音素可能度形成的语音解码网络;基于所述语音解码网络进行解码,得到目标解码路径,将所述目标解码路径所经过的音素按照路径顺序进行排列,得到所述待检测语音对应的识别音素序列。5.根据权利要求1所述的方法,其特征在于,所述对待检测语音中的各个语音帧进行特
征提取,得到所述语音帧对应的特征向量,包括:将所述待检测语音中各个语音帧输入到已训练的语音检测模型的特征提取子模型进行特征提取,得到所述语音帧对应的特征向量;所述已训练的语音检测模型包括特征提取子模型以及分别与特征提取子模型连接的语音序列识别子模型以及语音帧音素检测子模型;所述基于所述特征向量序列进行音素识别,得到各个所述语音帧对应的候选音素可能度,包括:将所述特征向量序列输入到所述语音序列识别子模型中进行音素识别,得到各个所述语音帧对应的候选音素可能度;所述获取所述提取语音帧序列中各个提取语音帧对应的音素可能度分布,包括:从所述特征向量序列中提取所述提取语音帧对应的特征向量,将所述提取语音帧对应的特征向量输入到所述语音帧音素检测子模型进行音素识别;将所述语音帧音素检测子模型输出的各类音素在各个提取语音帧中的可能度分布,作为各个提取语音帧对应的音素可能度分布。6.根据权利要求5所述的方法,其特征在于,得到所述已训练的语音检测模型的步骤包括:获取训练语音;将所述训练语音输入到待训练的特征提取子模型中进行特征提取,得到各个训练语音帧对应的训练特征向量,各个训练语音帧对应的训练特征向量按照对应的语音帧顺序进行排序,得到训练向量序列;将所述训练向量序列输入到待训练的语音序列识别子模型进行音素识别,得到音素序列识别结果;基于所述音素序列识别结果与所述训练语音对应的标准识别结果的第一差异得到第一模型损失值;所述第一模型损失值与第一差异成正相关关系;将各个所述训练特征向量输入到待训练的所述语音帧音素检测子模型进行音素识别,得到所述语音帧音素检测子模型对应的语音帧音素检测结果;基于所述语音帧音素检测结果与所述训练语音对应的标准识别结果的第二差异得到第二模型损失值;所述第一模型损失值与第二差异成正相关关系;基于所述第一模型损失值以...

【专利技术属性】
技术研发人员:朱传聪孙思宁
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1