语音智能识别方法和系统技术方案

技术编号：41126851 阅读：3 留言：0更新日期：2024-04-30 17:54

本发明专利技术提供的一种语音智能识别方法和系统，该方法包括基于用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频使用第一分割模型输出得到说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离；基于麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据；将用户说话语音数据转换为文字，该方法能够准确的将环境中其他人的人声和用户人声进行分割。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别，具体涉及一种语音智能识别方法和系统。

技术介绍

1、随着人工智能和移动设备的发展，语音识别技术越来越普及。当用户在安静状态下，用户可以发出语音并输入到手机中，手机可以根据接收到的语音通过语音识别技术转换为文字。但当用户在嘈杂的环境中时，往往环境中有其他人的人声等，若用户发出语音并输入到手机中时，则手机进行语音识别后的识别结果就包含了环境中的多种人声，从而造成识别结果错误。

2、因此如何准确的将环境中其他人的人声和用户人声进行分割是当前亟待解决的问题。

技术实现思路

1、本专利技术主要解决的技术问题如何准确的将环境中其他人的人声和用户人声进行分割。

2、根据第一方面，本专利技术提供一种语音智能识别方法，包括：获取手机发送的用户定位信息；基于所述用户定位信息判断是否开启光线传感器、加速度计、震动传感器；若判断结果为是，则获取预设时间段的光线传感器的数据、预设时间段的加速度计数据、预设时间段的震动传感器数据；基于所述定位信息、所述预设时间段的光线传感器的数据、所述预设时间段的加速度计数据、所述预设时间段的震动传感器数据使用传感器数据处理模型确定用户是否处于有人声的嘈杂环境；若传感器数据处理模型的输出结果为是，则当接收到用户开启麦克风的请求时，则同时开启前置摄像头和后置摄像头；接收到用户开启麦克风的请求时，获取麦克风的语音输入数据、用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频；基于所述用户语音输入时间段的前置摄像头视

3、更进一步地，所述基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据包括：

4、基于第二分割模型对所述说话用户的脸部动作视频和所述多个环境用户的脸部动作视频进行处理得到所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频；构建多个节点和所述多个节点之间的多条边，所述多个节点包括手机节点、说话用户节点、多个环境用户节点，其中所述手机节点为中心节点，所述说话用户节点、所述多个环境用户节点分别与所述手机节点建立边，所述手机节点的节点特征包括所述麦克风的语音输入数据，所述说话用户节点的节点特征包括所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户节点的节点特征包括所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频，所述说话用户节点与所述手机节点之间的边为所述说话用户到手机的距离，环境用户节点与所述手机节点之间的边为所述环境用户到手机的距离；基于图神经网络模型对所述多个节点和所述多个节点之间的多条边进行处理确定用户说话语音数据。

5、更进一步地，所述手机发送的用户定位信息包括手机发送的gps定位信息、手机发送的wi-fi定位信息、手机发送的基站定位信息。

6、更进一步地，所述第一分割模型为循环神经网络模型、所述第二分割模型为循环神经网络模型。

7、更进一步地，所述方法还包括：若传感器数据处理模型的输出结果为否，则当接收到用户开启麦克风的请求时，则仅开启麦克风。

8、根据第二方面，本专利技术提供一种语音智能识别系统，包括：第一获取模块，用于获取手机发送的用户定位信息；判断模块，用于基于所述用户定位信息判断是否开启光线传感器、加速度计、震动传感器；第二获取模块，用于若判断结果为是，则获取预设时间段的光线传感器的数据、预设时间段的加速度计数据、预设时间段的震动传感器数据；确定模块，用于基于所述定位信息、所述预设时间段的光线传感器的数据、所述预设时间段的加速度计数据、所述预设时间段的震动传感器数据使用传感器数据处理模型确定用户是否处于有人声的嘈杂环境；摄像头开启模块，用于若传感器数据处理模型的输出结果为是，则当接收到用户开启麦克风的请求时，则同时开启前置摄像头和后置摄像头；第三获取模块，用于接收到用户开启麦克风的请求时，获取麦克风的语音输入数据、用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频；分割模块，用于基于所述用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频使用第一分割模型输出得到说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离；语音数据确定模块，用于基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据；转换模块，用于将所述用户说话语音数据转换为文字。

9、更进一步地，所述语音数据确定模块还用于：基于第二分割模型对所述说话用户的脸部动作视频和所述多个环境用户的脸部动作视频进行处理得到所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频；构建多个节点和所述多个节点之间的多条边，所述多个节点包括手机节点、说话用户节点、多个环境用户节点，其中所述手机节点为中心节点，所述说话用户节点、所述多个环境用户节点分别与所述手机节点建立边，所述手机节点的节点特征包括所述麦克风的语音输入数据，所述说话用户节点的节点特征包括所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户节点的节点特征包括所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频，所述说话用户节点与所述手机节点之间的边为所述说话用户到手机的距离，环境用户节点与所述手机节点之间的边为所述环境用户到手机的距离；基于图神经网络模型对所述多个节点和所述多个节点之间的多条边进行处理确定用户说话语音数据。

10、更进一步地，所述手机发送的用户定位信息包括手机发送的gps定位信息、手机发送的wi-fi定位信息、手机发送的基站定位信息。

11、更进一步地，所述第一分割模型为循环神经网络模型、所述第二分割模型为循环神经网络模型。

12、更进一步地，所述系统还用于：若传感器数据处理模型的输出结果为否，则当接收到用户开启麦克风的请求时，本文档来自技高网...

【技术保护点】

1.一种语音智能识别方法，其特征在于，包括：

2.如权利要求1所述的语音智能识别方法，其特征在于，所述基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据包括：

3.如权利要求2所述的语音智能识别方法，其特征在于，所述第一分割模型为循环神经网络模型、所述第二分割模型为循环神经网络模型。

4.如权利要求1所述的语音智能识别方法，其特征在于，所述方法还包括：若传感器数据处理模型的输出结果为否，则当接收到用户开启麦克风的请求时，则仅开启麦克风。

5.一种语音智能识别系统，其特征在于，包括：

6.如权利要求5所述的语音智能识别系统，其特征在于，所述语音数据确定模块还用于：基于第二分割模型对所述说话用户的脸部动作视频和所述多个环境用户的脸部动作视频进行处理得到所述说话用户的嘴部动作视频、所述说话用户的下巴动作视频、所述说话用户的脸颊两侧肌肉动作视频、所述多个环境用户的嘴部动作视频、所述多个环境用户的下巴动作视频、所述多个环境用户的脸颊两侧肌肉动作视频；

7.如权利要求6所述的语音智能识别系统，其特征在于，所述第一分割模型为循环神经网络模型、所述第二分割模型为循环神经网络模型。

8.如权利要求5所述的语音智能识别系统，其特征在于，所述系统还用于：若传感器数据处理模型的输出结果为否，则当接收到用户开启麦克风的请求时，则仅开启麦克风。

...

【技术特征摘要】

1.一种语音智能识别方法，其特征在于，包括：

3.如权利要求2所述的语音智能识别方法，其特征在于，所述第一分割模型为循环神经网络模型、所述第二分割模型为循环神经网络模型。

5.一种语音智能识别系统，其特征在于，包括：

6.如权利要...

【专利技术属性】
技术研发人员：邹弘伶，
申请(专利权)人：天津引辉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人