基于多音区的语音识别方法、装置及计算机设备制造方法及图纸

技术编号：35681646 阅读：25 留言：0更新日期：2022-11-23 14:24

本发明专利技术涉及一种基于多音区的语音识别方法、装置及计算机设备，所述方法包括获取麦克风组收集的语音环境中的语音数据；其中，对麦克风组中的每个麦克风设置目标音区，语音环境包括多个环境音区，目标音区为多个环境音区中的一个；将语音数据输入至语音端点检测模型中进行检测，在第一预设时间段内确定语音数据所属的目标音区；计算语音数据的目标音区的语音能量值，对其中语音能量值最大的目标音区对应的语音数据进行语音识别。本发明专利技术能够对多音区语音进行精确识别，提高用户交叉说话的语音识别率，提升此类场景的用户语音交互体验。提升此类场景的用户语音交互体验。提升此类场景的用户语音交互体验。

全部详细技术资料下载

【技术实现步骤摘要】
基于多音区的语音识别方法、装置及计算机设备

[0001]本专利技术属于人工智能
，具体涉及一种基于多音区的语音识别方法、装置及计算机设备。

技术介绍

[0002]随着人工智能及语音识别技术的不断发展，汽车行业的智能语音助手相对于其他领域的智能语音助手，有着不一样的需求，需要在车内全场景体验到智能。多音区识别方案，是通过声源定位技术，定位到说话人的位置，然后锁定说话人的位置，只处理说话人的意图。比如：某个位置唤醒了语音助手，声源会定位到那个位置，此时只有这个位置的人说话可以被识别，其他位置说话会被忽略。
[0003]相关技术中，当车内存在两个以上的麦克风时，因为用户间说话是连续性的会导致采集多出语音，因而对目标位置定位不准确，造成识别率低，用户语音交互体验差的问题。

技术实现思路

[0004]有鉴于此，本专利技术的目的在于克服现有技术的不足，提供一种基于多音区的语音识别方法、装置及计算机设备，以解决现有技术中用户交叉说话造成识别率低，用户语音交互体验差的问题。
[0005]为实现以上目的，本专利技术采用如下技术方案：一种基于多音区的语音识别方法，包括：
[0006]获取麦克风组收集的语音环境中的语音数据；其中，对所述麦克风组中的每个麦克风设置目标音区，所述语音环境包括多个环境音区，目标音区为多个环境音区中的一个；
[0007]将所述语音数据输入至语音端点检测模型中进行检测，在第一预设时间段内确定语音数据所属的目标音区；
[0008]计算所述语音数据所述的目标...

【技术保护点】

【技术特征摘要】
1.一种基于多音区的语音识别方法，其特征在于，包括：获取麦克风组收集的语音环境中的语音数据；其中，对所述麦克风组中的每个麦克风设置目标音区，所述语音环境包括多个环境音区，目标音区为多个环境音区中的一个；将所述语音数据输入至语音端点检测模型中进行检测，在第一预设时间段内确定语音数据所属的目标音区；计算所述语音数据所述的目标音区的语音能量值，对其中语音能量值最大的目标音区对应的语音数据进行语音识别。2.根据权利要求1所述的方法，其特征在于，所述对其中语音能量值最大的目标音区对应的语音数据进行语音识别，包括：如果所述语音数据所属的目标音区为一个，则对该音区的语音数据进行识别；如果所述语音数据所属的目标音区为多个，则计算多个所属的目标音区中每个目标音区的语音能量值，对其中语音能量值最大的目标音区对应的语音数据进行语音识别。3.根据权利要求1所述的方法，其特征在于，在预设时间内确定语音数据所属的目标音区之前，还包括：将所述语音数据输入至语音唤醒引擎中，所述语音唤醒引擎判断所述语音数据中是否存在某个目标音区的唤醒词；如果存在，确定所述唤醒词对应的目标音区为唤醒音区。4.根据权利要求3所述的方法，其特征在于，所述对其中语音能量值最大的目标音区对应的语音数据进行语音识别，包括：判断所述唤醒音区是否为目标音区中语音能量值最大的音区，如果是，则对所述唤醒音区对应的语音数据进行语音识别；否则，等待第二预设时间段后，判断是否存在该唤醒音区之外的其他唤醒音区；如果不存在，则对所述唤醒音区对应的语音数据进行语音识别；如果存在，则通过唤醒引擎计算多个唤醒音区的置信度，对其中置信度最大的唤醒音区对应的语音数据进行语音识别。5.根据权利要求1至4任一项所述的方法，其特征在于，当所述语音数据所述的音区为多个时，在确定语音能量值最大的音区的语音数据之后，还包括：对所述语音能量值最大的音区之外的其他音区的语音数据...

【专利技术属性】
技术研发人员：赵茂祥，王显伟，刘威，李全忠，何国涛，蒲瑶，
申请(专利权)人：普强时代珠海横琴信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人