语音识别方法、电子设备、程序产品和存储介质技术

技术编号:32859739 阅读:10 留言:0更新日期:2022-03-30 19:37
本公开实施例公开了一种语音识别方法、电子设备、程序产品和存储介质,通过对待识别语音进行解码,得到第一解码结果,包括多个第一词序列以及多个第一词序列中各词的开始时间和结束时间、声学概率和语言概率;分别基于多个第一词序列中各词的声学概率和语言概率计算多个第一词序列中各词的置信度;基于多个第一词序列中置信度大于第一预设阈值的词,得到第二解码结果,包括多个第二词序列以及多个第二词序列中各词的开始时间和结束时间、声学概率和语言概率;基于多个第二词序列及其中各词的开始时间和结束时间、声学概率和语言概率,得到语音识别结果,可以提高语音识别结果的准确性,从而提高以语音识别为基础的应用效果。从而提高以语音识别为基础的应用效果。从而提高以语音识别为基础的应用效果。

【技术实现步骤摘要】
语音识别方法、电子设备、程序产品和存储介质


[0001]本公开涉及一种语音识别方法和装置、电子设备、程序产品和存储介质。

技术介绍

[0002]语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述语言的技术,将语音转化成文本。随着移动互联网的发展,语音识别越来越重要,它是很多其他应用能够实现的基础。例如,通过语音识别技术,可以实现语音拨号、语音导航等应用。语音识别结果越准确,以语音识别为基础的应用的效果就会越好。
[0003]现有的语音识别系统,在返回整个语音识别结果的文本句子时,会返回该文本句子的置信度,接收端会根据该文本句子的置信度是否大于预设阈值,判断该文本句子的可信度,从而决定下一步的动作。
[0004]在实现本专利技术的过程中,本专利技术人通过研究发现,由于现有的语音识别系统返回的是整个文本句子的置信度,而整个文本句子中可能存在识别不准确的词语,在接收端基于整个文本句子的置信度判断该文本句子的可信度较高进行下一步动作时,可能由于整个文本句子中存在识别不准确的词语导致错误的动作,从而降低以语音识别为基础的应用效果。

技术实现思路

[0005]本公开实施例提供一种语音识别方法和装置、电子设备、程序产品和存储介质,以提高语音识别结果的准确性,至少在一定程度上解决由于整个文本句子中存在识别不准确的词语导致错误的动作的问题,提高以语音识别为基础的应用效果。
[0006]根据本公开实施例的一个方面,提供一种语音识别方法,包括:
[0007]对待识别语音进行解码,得到第一解码结果,所述第一解码结果包括:多个第一词序列以及所述多个第一词序列中各词的开始时间和结束时间、声学概率和语言概率;
[0008]分别基于所述多个第一词序列中各词的声学概率和语言概率计算所述多个第一词序列中各词的置信度;
[0009]基于所述多个第一词序列中置信度大于第一预设阈值的词,得到第二解码结果,所述第二解码结果包括:多个第二词序列以及所述多个第二词序列中各词的开始时间和结束时间、声学概率和语言概率;
[0010]基于所述多个第二词序列与所述多个第二词序列中各词的开始时间和结束时间、声学概率和语言概率,得到语音识别结果,所述语言识别结果包括:第一句子和所述第一句子的置信度,以便基于所述语音识别结果进行相应的动作。
[0011]可选地,在本公开任一实施例中,所述分别基于所述多个第一词序列中各词的声学概率和语言概率计算所述多个第一词序列中各词的置信度,包括:
[0012]分别以所述多个第一词序列中各第一词序列中的各词作为当前词,基于所述当前词的声学概率和语言概率,分别计算所述当前词的前向概率和后向概率;
[0013]基于所述当前词的前向概率、后向概率和语言概率,计算所述当前词在所在的第一词序列中的后验概率;
[0014]叠加所述多个第一词序列中所述当前词的后验概率,得到所述当前词的置信度。
[0015]可选地,在本公开任一实施例中,所述基于所述多个第二词序列与所述多个第二词序列中各词的开始时间和结束时间、声学概率和语言概率,得到语音识别结果,包括:
[0016]分别基于所述多个第二词序列中各词的开始时间和结束时间、声学概率和语言概率,确定所述多个第二词序列中综合得分最高的第二词序列;
[0017]基于所述综合得分最高的第二词序列,得到第一句子;
[0018]基于所述第一句子中各词的置信度,得到所述第一句子的置信度。
[0019]可选地,在本公开任一实施例中,所述对待识别语音进行解码之前,还包括:
[0020]利用端点检测模型,对音频采集模块采集到的音频信号进行语音端点检测,得到至少一个语音活动段的起点和终点;
[0021]基于所述至少一个语音活动段的起点和终点,从所述音频信号中截取出所述至少一个语音活动段,以便分别以所述至少一个语音活动段中的各语音活动段作为所述待识别语音,执行所述对待识别语音进行解码,得到第一解码结果的操作。
[0022]可选地,在本公开任一实施例中,所述分别基于所述多个第一词序列中各词的声学概率和语言概率计算所述多个第一词序列中各词的置信度之后,还包括:
[0023]响应于所述多个第一词序列中各词的置信度均大于第二预设阈值且小于第三预设阈值,将所述待识别语音作为一个噪音样本加入噪音集,以用于训练所述端点检测模型,和/或作为前景噪音用于训练声学模型;其中,所述噪音集包括至少一个噪音样本,所述第二预设阈值小于所述第三预设阈值。
[0024]可选地,在本公开任一实施例中,还包括:
[0025]利用所述噪音集中的噪音样本训练所述端点检测模型。
[0026]可选地,在本公开任一实施例中,所述分别基于所述多个第一词序列中各词的声学概率和语言概率计算所述多个第一词序列中各词的置信度之后,还包括:
[0027]响应于所述多个第一词序列中各词的置信度均大于所述第三预设阈值且小于所述第一预设阈值,将所述待识别语音作为一个背景人声样本加入背景人声集,以作为背景人声噪音用于训练声学模型;其中,所述背景人声集包括至少一个背景人声样本,所述第三预设阈值小于所述第一预设阈值。
[0028]可选地,在本公开任一实施例中,所述分别基于所述多个第一词序列中各词的声学概率和语言概率计算所述多个第一词序列中各词的置信度之后,还包括:
[0029]响应于所述多个第一词序列中各词的置信度均大于第四预设阈值,基于所述多个第一词序列和所述多个第一词序列中各词的置信度,得到第二句子;其中,所述第四预设阈值不小于所述第一预设阈值;
[0030]以所述第二句子作为所述待识别语音的标注信息,将所述待识别语音和所述待识别语音的标注信息作为一个语音样本加入语音集,以用于训练声学模型和语言模型;其中,所述语音集包括至少一个语音样本。
[0031]可选地,在本公开任一实施例中,所述将所述待识别语音和所述待识别语音的标注信息作为一个语音样本加入语音集,包括:
[0032]确定所述第二句子的属性信息,所述属性信息包括以下任意一项或多项:领域,应用场景,地理区域;
[0033]将所述待识别语音和所述待识别语音的标注信息作为一个语音样本,加入所述属性信息对应的语音集,以用于训练所述属性信息对应的声学模型和语言模型。
[0034]可选地,在本公开任一实施例中,还包括:
[0035]基于噪音集中的噪音样本、背景人声集中的背景人声样本和语音集中的语音样本,构建训练数据集,所述训练数据集包括至少一个带噪信号,所述带噪信号包括一下任意一项或多项:由所述语音样本和作为前景噪音的所述噪音样本混合生成的带噪信号,由所述语音样本和作为背景人声噪音的所述背景人声样本混合生成的带噪信号,由所述语音样本、作为前景噪音的所述噪音样本和作为背景人声噪音的所述背景人声样本混合生成的带噪信号,所述带噪信号标注有用于生成所述带噪信号的语音样本的标注信息;
[0036]利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:对待识别语音进行解码,得到第一解码结果,所述第一解码结果包括:多个第一词序列以及所述多个第一词序列中各词的开始时间和结束时间、声学概率和语言概率;分别基于所述多个第一词序列中各词的声学概率和语言概率计算所述多个第一词序列中各词的置信度;基于所述多个第一词序列中置信度大于第一预设阈值的词,得到第二解码结果,所述第二解码结果包括:多个第二词序列以及所述多个第二词序列中各词的开始时间和结束时间、声学概率和语言概率;基于所述多个第二词序列与所述多个第二词序列中各词的开始时间和结束时间、声学概率和语言概率,得到语音识别结果,所述语言识别结果包括:第一句子和所述第一句子的置信度,以便基于所述语音识别结果进行相应的动作。2.根据权利要求1所述的方法,其特征在于,所述分别基于所述多个第一词序列中各词的声学概率和语言概率计算所述多个第一词序列中各词的置信度,包括:分别以所述多个第一词序列中各第一词序列中的各词作为当前词,基于所述当前词的声学概率和语言概率,分别计算所述当前词的前向概率和后向概率;基于所述当前词的前向概率、后向概率和语言概率,计算所述当前词在所在的第一词序列中的后验概率;叠加所述多个第一词序列中所述当前词的后验概率,得到所述当前词的置信度。3.根据权利要求1或2所述的方法,其特征在于,所述基于所述多个第二词序列与所述多个第二词序列中各词的开始时间和结束时间、声学概率和语言概率,得到语音识别结果,包括:分别基于所述多个第二词序列中各词的开始时间和结束时间、声学概率和语言概率,确定所述多个第二词序列中综合得分最高的第二词序列;基于所述综合得分最高的第二词序列,得到第一句子;基于所述第一句子中各词的置信度,得到所述第一句子的置信度。4.根据权利要求1

3任一所述的方法,其特征在于,所述对待识别语音进行解码之前,还包括:利用端点检测模型,对音频采集模块采集到的音频信号进行语音端点检测,得到至少一个语音活动段的起点和终点;基于所述至少一个语音活动段的起点和终点,从所述音频信号中截取出所述至少一个语音活动段,以便分别以所述至少一个语音活动段中的各语音活动段作为所述待识别语音,执行所述对待识别语音进行解码,得到第一解码结果的操作。5.根据权利要求4所述的方法,其特征在于,所述分别基于所述多个第一词序列中各词的声学概率和语言概率计算所述多个第一词序列中各词的置信度之后,还包括:响应于所述多个第一词序列中各词的置信度均大于第二预设阈值且小于第三预设阈值,将所述待识别语音作为一个噪音样本加入噪音集,以用于训练所述端点检测模型,和/或作为前景噪音用于训练声学模型;其中,所述噪音集包括至少一个噪音样本,所述第二预设阈值小于所述第三预设阈值。6.根据权利要求5所述的方法,其特征在于,还包括:
利用所述噪音集中的噪音样本训练所述端点检测模型。7.根据权利要求...

【专利技术属性】
技术研发人员:颜瑞徐延广解传栋
申请(专利权)人:贝壳找房网北京信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1