语音智能识别方法和系统技术方案

技术编号:41126851 阅读:25 留言:0更新日期:2024-04-30 17:54
本发明专利技术提供的一种语音智能识别方法和系统,该方法包括基于用户语音输入时间段的前置摄像头视频和用户语音输入时间段的后置摄像头视频使用第一分割模型输出得到说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离;基于麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据;将用户说话语音数据转换为文字,该方法能够准确的将环境中其他人的人声和用户人声进行分割。

【技术实现步骤摘要】

本专利技术涉及语音识别,具体涉及一种语音智能识别方法和系统


技术介绍

1、随着人工智能和移动设备的发展,语音识别技术越来越普及。当用户在安静状态下,用户可以发出语音并输入到手机中,手机可以根据接收到的语音通过语音识别技术转换为文字。但当用户在嘈杂的环境中时,往往环境中有其他人的人声等,若用户发出语音并输入到手机中时,则手机进行语音识别后的识别结果就包含了环境中的多种人声,从而造成识别结果错误。

2、因此如何准确的将环境中其他人的人声和用户人声进行分割是当前亟待解决的问题。


技术实现思路

1、本专利技术主要解决的技术问题如何准确的将环境中其他人的人声和用户人声进行分割。

2、根据第一方面,本专利技术提供一种语音智能识别方法,包括:获取手机发送的用户定位信息;基于所述用户定位信息判断是否开启光线传感器、加速度计、震动传感器;若判断结果为是,则获取预设时间段的光线传感器的数据、预设时间段的加速度计数据、预设时间段的震动传感器数据;基于所述定位信息、所述预设时间段的光线传感器的数据、所述预设本文档来自技高网...

【技术保护点】

1.一种语音智能识别方法,其特征在于,包括:

2.如权利要求1所述的语音智能识别方法,其特征在于,所述基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据包括:

3.如权利要求2所述的语音智能识别方法,其特征在于,所述第一分割模型为循环神经网络模型、所述第二分割模型为循环神经网络模型。

4.如权利要求1所述的语音智能识别方法,其特征在于,所述方法还包括:若传感器数据处理模型的输出结果为否,则当接收到用户开启麦克风的请求时,则仅开启麦克风。

5.一...

【技术特征摘要】

1.一种语音智能识别方法,其特征在于,包括:

2.如权利要求1所述的语音智能识别方法,其特征在于,所述基于所述麦克风的语音输入数据、说话用户的脸部动作视频、多个环境用户的脸部动作视频、说话用户到手机的距离、多个环境用户到手机的距离确定用户说话语音数据包括:

3.如权利要求2所述的语音智能识别方法,其特征在于,所述第一分割模型为循环神经网络模型、所述第二分割模型为循环神经网络模型。

4.如权利要求1所述的语音智能识别方法,其特征在于,所述方法还包括:若传感器数据处理模型的输出结果为否,则当接收到用户开启麦克风的请求时,则仅开启麦克风。

5.一种语音智能识别系统,其特征在于,包括:

6.如权利要...

【专利技术属性】
技术研发人员:邹弘伶
申请(专利权)人:天津引辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1