一种语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37963883 阅读:8 留言:0更新日期:2023-06-30 09:39
本申请公开了一种语音识别方法、装置、电子设备及存储介质,根据待识别的语音信号中每个语音帧对应于每个第一音素的声学分,确定出待识别的语音信号的解码结果,并判断解码结果中包含预设的关键词时,分别针对关键词中的每个第二音素,根据该第二音素对应的各个语音帧中该第二音素的声学分,确定加权声学分,根据各个语音帧中每个语音帧的最大声学分,确定最大加权声学分,然后根据加权声学分和所述最大加权声学分,确定声学分置信度。这样得到的声学分置信度能够更准确的衡量解码结果的可信度。因此根据声学分置信度,确定语音识别结果可以保证语音识别的准确性。可以保证语音识别的准确性。可以保证语音识别的准确性。

【技术实现步骤摘要】
一种语音识别方法、装置、电子设备及存储介质


[0001]本申请涉及语音识别
,尤其涉及一种语音识别方法、装置、电子设备及存储介质。

技术介绍

[0002]关键词识别作为语音识别技术的一项重要分支,在人机交互、智能家居中被广泛的应用,如某些智能家居场景中,用户会用唤醒词将智能设备唤醒,然后说出希望设备执行的语音指令,指示设备完成特定动作,如“打开空调”。这个过程中,涉及到的语音唤醒和命令词识别,都是关键词识别技术的重要应用。而在实际应用中,会出现误唤醒和误识别的问题,如用户说了一句与命令词毫不相关的话,却被误识别为“打开空调”,这种问题将极大影响用户体验。因此如何提高语音识别的准确性,是目前亟待解决的技术问题。

技术实现思路

[0003]本申请实施例提供了一种语音识别方法、装置、电子设备及存储介质,用以提高语音识别的准确性。
[0004]本申请提供了一种语音识别方法,所述方法包括:
[0005]获取待识别的语音信号,提取所述语音信号中每个语音帧的声学特征信息,将所述每个语音帧的声学特征信息分别输入已训练的声学模型,分别得到所述每个语音帧对应于每个第一音素的声学分;
[0006]将所述每个语音帧对应于每个第一音素的声学分输入已训练的解码网络,得到解码结果;
[0007]判断所述解码结果中是否包含预设的关键词,如果是则进入如下操作:
[0008]针对所述关键词中的每个第二音素,根据该第二音素对应的各个语音帧中该第二音素的声学分,确定加权声学分;并根据所述各个语音帧中每个语音帧的最大声学分,确定最大加权声学分;
[0009]根据所述每个第二音素各自对应的加权声学分和最大加权声学分,确定声学分置信度,根据所述声学分置信度,确定语音识别结果。
[0010]进一步地,所述根据所述声学分置信度,确定语音识别结果之前,所述方法还包括:
[0011]根据所述解码结果,确定词图lattice的至少一种特征的置信度;
[0012]所述根据所述声学分置信度,确定语音识别结果包括:
[0013]若所述声学分置信度和所述至少一种特征的置信度均满足置信度阈值条件时,确定所述关键词为语音识别结果,否则确定所述关键词为误识别结果。
[0014]进一步地,所述根据该第二音素对应的各个语音帧中该第二音素的声学分,确定加权声学分,根据所述各个语音帧中每个语音帧的最大声学分,确定最大加权声学分包括:
[0015]根据该第二音素对应的各个语音帧中该第二音素的声学分的和值,确定加权声学
分;
[0016]根据所述各个语音帧中每个语音帧的最大声学分的和值,确定最大加权声学分。
[0017]进一步地,所述根据所述每个第二音素各自对应的加权声学分和最大加权声学分,确定声学分置信度包括:
[0018]根据所述每个第二音素各自对应的加权声学分的和值,确定总加权声学分;
[0019]根据所述每个第二音素各自对应的最大加权声学分的和值,确定总最大加权声学分;
[0020]根据所述总加权声学分和所述总最大加权声学分的比值,确定声学分置信度。
[0021]进一步地,所述若所述声学分置信度和所述至少一种特征的置信度均满足置信度阈值条件时,确定所述关键词为语音识别结果包括:
[0022]若所述声学分置信度大于预设的第一声学分置信度阈值,所述至少一种特征的置信度大于预设的第二置信度阈值,或者所述声学分置信度大于预设的第二声学分置信度阈值,所述至少一种特征的置信度大于预设的第一置信度阈值,确定所述关键词为语音识别结果;其中,所述预设的第一声学分置信度阈值大于所述预设的第二声学分置信度阈值,所述预设的第一置信度阈值大于所述预设的第二置信度阈值。
[0023]进一步地,所述至少一种特征包括:解码路径混乱程度、编辑距离、总代价分差距、语言模型回退概率中的至少一种。
[0024]进一步地,若所述至少一种特征包括总代价分差距,所述至少一种特征的置信度的确定过程包括:
[0025]获取所述解码结果的词图lattice中各条路径各自的总代价分,根据最低的总代价分和次低的总代价分的比值,确定总代价分差距的置信度。
[0026]另一方面,本申请提供了一种语音识别装置,所述装置包括:
[0027]获取模块,用于获取待识别的语音信号,提取所述语音信号中每个语音帧的声学特征信息,将所述每个语音帧的声学特征信息分别输入已训练的声学模型,分别得到所述每个语音帧对应于每个第一音素的声学分;
[0028]确定模块,用于将所述每个语音帧对应于每个第一音素的声学分输入已训练的解码网络,得到解码结果;
[0029]判断所述解码结果中是否包含预设的关键词,如果是则进入如下操作:
[0030]针对所述关键词中的每个第二音素,根据该第二音素对应的各个语音帧中该第二音素的声学分,确定加权声学分;并根据所述各个语音帧中每个语音帧的最大声学分,确定最大加权声学分;
[0031]识别模块,用于根据所述每个第二音素各自对应的加权声学分和最大加权声学分,确定声学分置信度,根据所述声学分置信度,确定语音识别结果。
[0032]进一步地,所述确定模块,还用于根据所述解码结果,确定词图lattice的至少一种特征的置信度;
[0033]所述识别模块,具体用于若所述声学分置信度和所述至少一种特征的置信度均满足置信度阈值条件时,确定所述关键词为语音识别结果,否则确定所述关键词为误识别结果。
[0034]进一步地,所述确定模块,具体用于根据该第二音素对应的各个语音帧中该第二
音素的声学分的和值,确定加权声学分;根据所述各个语音帧中每个语音帧的最大声学分的和值,确定最大加权声学分。
[0035]进一步地,所述确定模块,具体用于根据所述每个第二音素各自对应的加权声学分的和值,确定总加权声学分;根据所述每个第二音素各自对应的最大加权声学分的和值,确定总最大加权声学分;根据所述总加权声学分和所述总最大加权声学分的比值,确定声学分置信度。
[0036]进一步地,所述识别模块,具体用于若所述声学分置信度大于预设的第一声学分置信度阈值,所述至少一种特征的置信度大于预设的第二置信度阈值,或者所述声学分置信度大于预设的第二声学分置信度阈值,所述至少一种特征的置信度大于预设的第一置信度阈值,确定所述关键词为语音识别结果;其中,所述预设的第一声学分置信度阈值大于所述预设的第二声学分置信度阈值,所述预设的第一置信度阈值大于所述预设的第二置信度阈值。
[0037]进一步地,所述至少一种特征包括:解码路径混乱程度、编辑距离、总代价分差距、语言模型回退概率中的至少一种。
[0038]进一步地,所述识别模块,具体用于获取所述解码结果的词图lattice中各条路径各自的总代价分,根据最低的总代价分和次低的总代价分的比值,确定总代价分差距的置信度。
[0039]再一方面,本申请提供了一种电子设备,包括处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取待识别的语音信号,提取所述语音信号中每个语音帧的声学特征信息,将所述每个语音帧的声学特征信息分别输入已训练的声学模型,分别得到所述每个语音帧对应于每个第一音素的声学分;将所述每个语音帧对应于每个第一音素的声学分输入已训练的解码网络,得到解码结果;判断所述解码结果中是否包含预设的关键词,如果是则进入如下操作:针对所述关键词中的每个第二音素,根据该第二音素对应的各个语音帧中该第二音素的声学分,确定加权声学分;并根据所述各个语音帧中每个语音帧的最大声学分,确定最大加权声学分;根据所述每个第二音素各自对应的加权声学分和最大加权声学分,确定声学分置信度,根据所述声学分置信度,确定语音识别结果。2.如权利要求1所述的方法,其特征在于,所述根据所述声学分置信度,确定语音识别结果之前,所述方法还包括:根据所述解码结果,确定词图lattice的至少一种特征的置信度;所述根据所述声学分置信度,确定语音识别结果包括:若所述声学分置信度和所述至少一种特征的置信度均满足置信度阈值条件时,确定所述关键词为语音识别结果,否则确定所述关键词为误识别结果。3.如权利要求1所述的方法,其特征在于,所述根据该第二音素对应的各个语音帧中该第二音素的声学分,确定加权声学分,根据所述各个语音帧中每个语音帧的最大声学分,确定最大加权声学分包括:根据该第二音素对应的各个语音帧中该第二音素的声学分的和值,确定加权声学分;根据所述各个语音帧中每个语音帧的最大声学分的和值,确定最大加权声学分。4.如权利要求1所述的方法,其特征在于,所述根据所述每个第二音素各自对应的加权声学分和最大加权声学分,确定声学分置信度包括:根据所述每个第二音素各自对应的加权声学分的和值,确定总加权声学分;根据所述每个第二音素各自对应的最大加权声学分的和值,确定总最大加权声学分;根据所述总加权声学分和所述总最大加权声学分的比值,确定声学分置信度。5.如权利要求2所述的方法,其特征在于,所述若所述声学分置信度和所述至少一种特征的置信度均满足置信度阈值条件时,确定所述关键词为语音识别结果包括:若所述声学分置信度大于预设的第一声学分置信度阈值,所...

【专利技术属性】
技术研发人员:黄惠祥林聚财吴人杰方瑞东殷俊史巍岳昌洁王宝俊
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1