语音辅助识别方法、装置、存储介质及电子设备制造方法及图纸

技术编号：23402009 阅读：27 留言：0更新日期：2020-02-22 14:04

本申请提出了一种语音辅助识别方法、装置、存储介质及电子设备，电子设备在获取包含多个语音的语音信息的同时，可以获取拍摄范围内人脸图像的嘴部运动信息，之后，利用预先训练处的语音辅助训练模型，对该嘴部运动信息及多个语音进行分析计算，快速且准确地从这多个语音中提取出电子设备使用者输出的目标语音，进而保证了输出的文本信息即为使用者在嘈杂场景下所说的内容，极大提高了嘈杂场景下语音识别的效率及准确性。

Speech recognition methods, devices, storage media and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
语音辅助识别方法、装置、存储介质及电子设备
本申请主要涉及数据处理
，更具体地说是涉及一种语音辅助识别方法、装置、存储介质及电子设备。
技术介绍
语音识别技术，也被称为自动语音识别(AutomaticSpeechRecognition，ASR)技术，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，目前已经被广泛应用工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等多个领域，为人们的日常生活、工作、娱乐等方面提供了极大便利。在实际应用中，若进行语音识别的电子设备所处环境嘈杂、用户距离电子设备的语音采集器较远，电子设备采集到的用户语音信息中往往会掺杂噪声(如环境声、周围人声等)，降低了用户语音识别结果的准确性，极大降低了电子设备的语音识别性能。
技术实现思路
有鉴于此，本申请提供了以下技术方案：一方面，本申请提出了一种语音辅助识别方法，所述方法包括：获取语音信息及拍摄范围内的人脸图像，所述语音信息包含多个语音；将所述人脸图像中的嘴部运动信息以及所述语音信息输入到语音辅助训练模型的输入层；利用所述语音辅助训练模型进行计算，通过所述语音辅助训练模型输出层获取文本信息，以响应输入的所述嘴部运动信息以及所述语音信息，其中，所述文本信息与所述多个语音中与所述嘴部运动信息匹配的目标语音对应；输出所述文本信息。在一些实施例中，所述利用所述语音辅助训练模型进行计算，包括：从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音；<...

【技术保护点】
1.一种语音辅助识别方法，所述方法包括：/n获取语音信息及拍摄范围内的人脸图像，所述语音信息包含多个语音；/n将所述人脸图像中的嘴部运动信息以及所述语音信息输入到语音辅助训练模型的输入层；/n利用所述语音辅助训练模型进行计算，通过所述语音辅助训练模型输出层获取文本信息，以响应输入的所述嘴部运动信息以及所述语音信息，其中，所述文本信息与所述多个语音中与所述嘴部运动信息匹配的目标语音对应；/n输出所述文本信息。/n

【技术特征摘要】
1.一种语音辅助识别方法，所述方法包括：
获取语音信息及拍摄范围内的人脸图像，所述语音信息包含多个语音；
将所述人脸图像中的嘴部运动信息以及所述语音信息输入到语音辅助训练模型的输入层；
利用所述语音辅助训练模型进行计算，通过所述语音辅助训练模型输出层获取文本信息，以响应输入的所述嘴部运动信息以及所述语音信息，其中，所述文本信息与所述多个语音中与所述嘴部运动信息匹配的目标语音对应；
输出所述文本信息。

2.根据权利要求1所述的方法，所述利用所述语音辅助训练模型进行计算，包括：
从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音；
将所述目标语音或由所述目标语音转换得到的文本信息输入到所述语音辅助训练模型的输出层；
如果输入到所述语音辅助训练模型的输出层的是所述目标语音，所述通过所述语音辅助训练模型输出层获取文本信息，包括：
将所述语音辅助训练模型输出层输出的所述目标语音转换为文本信息。

3.根据权利要求2所述的方法，所述从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音，包括：
利用所述嘴部运动信息，得到嘴部运动时间；
获取所述多个语音各自的语音输出时间；
将与所述嘴部运动时间匹配的语音输出时间对应的语音确定为目标语音。

4.根据权利要求2所述的方法，如果所述拍摄范围内的人脸图像的数量为多个，所述从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音，包括：
利用多个人脸图像各自的嘴部运动信息，得到相应的嘴部运动时间；
从所述多个语音中，识别与各嘴部运动时间匹配的待定语音；
如果所述待定语音的数量为一个，将所述待定语音确定为所述目标语音；
如果所述待定语音的数量为多个，将与最大嘴部运动时间匹配的待定语音确定为所述目标语音。

5.根据权利要求2所述的方法，如果所述拍摄范围内的人脸图像的数量为多个，所述从所述多个语音中，识别与所述嘴部运动信息匹配的所述目标语音，包括：
从所述多个语音中，识别与多个人脸图像各自的嘴部运动信息匹...

【专利技术属性】
技术研发人员：张银平，杨琳，徐培来，汪俊杰，王旭阳，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人