基于多音区的语音识别方法、装置及计算机设备制造方法及图纸

技术编号:35681646 阅读:25 留言:0更新日期:2022-11-23 14:24
本发明专利技术涉及一种基于多音区的语音识别方法、装置及计算机设备,所述方法包括获取麦克风组收集的语音环境中的语音数据;其中,对麦克风组中的每个麦克风设置目标音区,语音环境包括多个环境音区,目标音区为多个环境音区中的一个;将语音数据输入至语音端点检测模型中进行检测,在第一预设时间段内确定语音数据所属的目标音区;计算语音数据的目标音区的语音能量值,对其中语音能量值最大的目标音区对应的语音数据进行语音识别。本发明专利技术能够对多音区语音进行精确识别,提高用户交叉说话的语音识别率,提升此类场景的用户语音交互体验。提升此类场景的用户语音交互体验。提升此类场景的用户语音交互体验。

【技术实现步骤摘要】
基于多音区的语音识别方法、装置及计算机设备


[0001]本专利技术属于人工智能
,具体涉及一种基于多音区的语音识别方法、装置及计算机设备。

技术介绍

[0002]随着人工智能及语音识别技术的不断发展,汽车行业的智能语音助手相对于其他领域的智能语音助手,有着不一样的需求,需要在车内全场景体验到智能。多音区识别方案,是通过声源定位技术,定位到说话人的位置,然后锁定说话人的位置,只处理说话人的意图。比如:某个位置唤醒了语音助手,声源会定位到那个位置,此时只有这个位置的人说话可以被识别,其他位置说话会被忽略。
[0003]相关技术中,当车内存在两个以上的麦克风时,因为用户间说话是连续性的会导致采集多出语音,因而对目标位置定位不准确,造成识别率低,用户语音交互体验差的问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于克服现有技术的不足,提供一种基于多音区的语音识别方法、装置及计算机设备,以解决现有技术中用户交叉说话造成识别率低,用户语音交互体验差的问题。
[0005]为实现以上目的,本专利技术采用如下技术方案:一种基于多音区的语音识别方法,包括:
[0006]获取麦克风组收集的语音环境中的语音数据;其中,对所述麦克风组中的每个麦克风设置目标音区,所述语音环境包括多个环境音区,目标音区为多个环境音区中的一个;
[0007]将所述语音数据输入至语音端点检测模型中进行检测,在第一预设时间段内确定语音数据所属的目标音区;
[0008]计算所述语音数据所述的目标音区的语音能量值,对其中语音能量值最大的目标音区对应的语音数据进行语音识别。
[0009]进一步的,所述对其中语音能量值最大的目标音区对应的语音数据进行语音识别,包括:
[0010]如果所述语音数据所属的目标音区为一个,则对该音区的语音数据进行识别;如果所述语音数据所属的目标音区为多个,则计算多个所属的目标音区中每个目标音区的语音能量值,对其中语音能量值最大的目标音区对应的语音数据进行语音识别。
[0011]进一步的,在预设时间内确定语音数据所属的目标音区之前,还包括:
[0012]将所述语音数据输入至语音唤醒引擎中,所述语音唤醒引擎判断所述语音数据中是否存在某个目标音区的唤醒词;
[0013]如果存在,确定所述唤醒词对应的目标音区为唤醒音区。
[0014]进一步的,所述对其中语音能量值最大的目标音区对应的语音数据进行语音识
别,包括:
[0015]判断所述唤醒音区是否为目标音区中语音能量值最大的音区,如果是,则对所述唤醒音区对应的语音数据进行语音识别;否则,等待第二预设时间段后,判断是否存在该唤醒音区之外的其他唤醒音区;如果不存在,则对所述唤醒音区对应的语音数据进行语音识别;如果存在,则通过唤醒引擎计算多个唤醒音区的置信度,对其中置信度最大的唤醒音区对应的语音数据进行语音识别。
[0016]进一步的,当所述语音数据所述的音区为多个时,在确定语音能量值最大的音区的语音数据之后,还包括:
[0017]对所述语音能量值最大的音区之外的其他音区的语音数据进行降噪处理。
[0018]本申请实施例提供一种基于多音区的语音识别装置,包括:
[0019]获取模块,用于获取麦克风组收集的语音环境中的语音数据;其中,对所述麦克风组中的每个麦克风设置目标音区,所述语音环境包括多个环境音区,目标音区为多个环境音区中的一个;
[0020]检测模块,用于将所述语音数据输入至语音端点检测模型中进行检测,在第一预设时间段内确定语音数据所属的目标音区;
[0021]识别模块,用于计算所述语音数据所述的目标音区的语音能量值,对其中语音能量值最大的目标音区对应的语音数据进行语音识别。
[0022]进一步的,所述识别模块,包括:
[0023]第一判断单元,用于如果所述语音数据所属的目标音区为一个,则对该音区的语音数据进行识别;如果所述语音数据所属的目标音区为多个,则计算多个所属的目标音区中每个目标音区的语音能量值,对其中语音能量值最大的目标音区对应的语音数据进行语音识别。
[0024]进一步的,还包括:
[0025]唤醒模块,用于将所述语音数据输入至语音唤醒引擎中,所述语音唤醒引擎判断所述语音数据中是否存在某个目标音区的唤醒词;
[0026]如果存在,确定所述唤醒词对应的目标音区为唤醒音区。
[0027]进一步的,所述识别模块,包括:
[0028]第二判断单元,用于判断所述唤醒音区是否为目标音区中语音能量值最大的音区,如果是,则对所述唤醒音区对应的语音数据进行语音识别;否则,等待第二预设时间段后,判断是否存在该唤醒音区之外的其他唤醒音区;如果不存在,则对所述唤醒音区对应的语音数据进行语音识别;如果存在,则通过唤醒引擎计算多个唤醒音区的置信度,对其中置信度最大的唤醒音区对应的语音数据进行语音识别。
[0029]本申请实施例提供一种计算机设备,包括:存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述任一项基于多音区的语音识别方法的步骤。
[0030]本申请实施例还提供一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述任一项基于多音区的语音识别方法的步骤。
[0031]本专利技术采用以上技术方案,能够达到的有益效果包括:
[0032]本专利技术提供一种基于多音区的语音识别方法、装置及计算机设备,所述方法包括
获取麦克风组收集的语音环境中的语音数据;其中,对麦克风组中的每个麦克风设置目标音区,语音环境包括多个环境音区,目标音区为多个环境音区中的一个;将语音数据输入至语音端点检测模型中进行检测,在第一预设时间段内确定语音数据所属的目标音区;计算语音数据的目标音区的语音能量值,对其中语音能量值最大的目标音区对应的语音数据进行语音识别。通过本申请提供的技术方案,能够对用户语音交互过程中获取的语音数据进行多个音区的区分,进而进行精确识别,提高用户交叉说话的语音识别率,提升此类场景的用户语音交互体验。
附图说明
[0033]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1为本专利技术基于多音区的语音识别方法的步骤示意图;
[0035]图2为本专利技术基于多音区的语音识别方法的流程示意图;
[0036]图3为本专利技术基于多音区的语音识别方法的另一个流程示意图;
[0037]图4为本专利技术基于多音区的语音识别装置的结构示意图;
[0038]图5为本专利技术基于多音区的语音识别方法实施环境的硬件结构示意图。
具体实施方式
[0039]为使本专利技术的目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多音区的语音识别方法,其特征在于,包括:获取麦克风组收集的语音环境中的语音数据;其中,对所述麦克风组中的每个麦克风设置目标音区,所述语音环境包括多个环境音区,目标音区为多个环境音区中的一个;将所述语音数据输入至语音端点检测模型中进行检测,在第一预设时间段内确定语音数据所属的目标音区;计算所述语音数据所述的目标音区的语音能量值,对其中语音能量值最大的目标音区对应的语音数据进行语音识别。2.根据权利要求1所述的方法,其特征在于,所述对其中语音能量值最大的目标音区对应的语音数据进行语音识别,包括:如果所述语音数据所属的目标音区为一个,则对该音区的语音数据进行识别;如果所述语音数据所属的目标音区为多个,则计算多个所属的目标音区中每个目标音区的语音能量值,对其中语音能量值最大的目标音区对应的语音数据进行语音识别。3.根据权利要求1所述的方法,其特征在于,在预设时间内确定语音数据所属的目标音区之前,还包括:将所述语音数据输入至语音唤醒引擎中,所述语音唤醒引擎判断所述语音数据中是否存在某个目标音区的唤醒词;如果存在,确定所述唤醒词对应的目标音区为唤醒音区。4.根据权利要求3所述的方法,其特征在于,所述对其中语音能量值最大的目标音区对应的语音数据进行语音识别,包括:判断所述唤醒音区是否为目标音区中语音能量值最大的音区,如果是,则对所述唤醒音区对应的语音数据进行语音识别;否则,等待第二预设时间段后,判断是否存在该唤醒音区之外的其他唤醒音区;如果不存在,则对所述唤醒音区对应的语音数据进行语音识别;如果存在,则通过唤醒引擎计算多个唤醒音区的置信度,对其中置信度最大的唤醒音区对应的语音数据进行语音识别。5.根据权利要求1至4任一项所述的方法,其特征在于,当所述语音数据所述的音区为多个时,在确定语音能量值最大的音区的语音数据之后,还包括:对所述语音能量值最大的音区之外的其他音区的语音数据...

【专利技术属性】
技术研发人员:赵茂祥王显伟刘威李全忠何国涛蒲瑶
申请(专利权)人:普强时代珠海横琴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1