语音辅助识别方法、装置、存储介质及电子设备制造方法及图纸

技术编号:23402009 阅读:27 留言:0更新日期:2020-02-22 14:04
本申请提出了一种语音辅助识别方法、装置、存储介质及电子设备,电子设备在获取包含多个语音的语音信息的同时,可以获取拍摄范围内人脸图像的嘴部运动信息,之后,利用预先训练处的语音辅助训练模型,对该嘴部运动信息及多个语音进行分析计算,快速且准确地从这多个语音中提取出电子设备使用者输出的目标语音,进而保证了输出的文本信息即为使用者在嘈杂场景下所说的内容,极大提高了嘈杂场景下语音识别的效率及准确性。

Speech recognition methods, devices, storage media and electronic equipment

【技术实现步骤摘要】
语音辅助识别方法、装置、存储介质及电子设备
本申请主要涉及数据处理
,更具体地说是涉及一种语音辅助识别方法、装置、存储介质及电子设备。
技术介绍
语音识别技术,也被称为自动语音识别(AutomaticSpeechRecognition,ASR)技术,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,目前已经被广泛应用工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等多个领域,为人们的日常生活、工作、娱乐等方面提供了极大便利。在实际应用中,若进行语音识别的电子设备所处环境嘈杂、用户距离电子设备的语音采集器较远,电子设备采集到的用户语音信息中往往会掺杂噪声(如环境声、周围人声等),降低了用户语音识别结果的准确性,极大降低了电子设备的语音识别性能。
技术实现思路
有鉴于此,本申请提供了以下技术方案:一方面,本申请提出了一种语音辅助识别方法,所述方法包括:获取语音信息及拍摄范围内的人脸图像,所述语音信息包含多个语音;将所述人脸图像中的嘴部运动信息以及所述语音信息输入到语音辅助训练模型的输入层;利用所述语音辅助训练模型进行计算,通过所述语音辅助训练模型输出层获取文本信息,以响应输入的所述嘴部运动信息以及所述语音信息,其中,所述文本信息与所述多个语音中与所述嘴部运动信息匹配的目标语音对应;输出所述文本信息。在一些实施例中,所述利用所述语音辅助训练模型进行计算,包括:从所述多个语音中,识别与所述嘴部运动信息匹配的所述目标语音;<br>将所述目标语音或由所述目标语音转换得到的文本信息输入到所述语音辅助训练模型的输出层;如果输入到所述语音辅助训练模型的输出层的是所述目标语音,所述通过所述语音辅助训练模型输出层获取文本信息,包括:将所述语音辅助训练模型输出层输出的所述目标语音转换为文本信息。在一些实施例中,所述从所述多个语音中,识别与所述嘴部运动信息匹配的所述目标语音,包括:利用所述嘴部运动信息,得到嘴部运动时间;获取所述多个语音各自的语音输出时间;将与所述嘴部运动时间匹配的语音输出时间对应的语音确定为目标语音。在一些实施例中,如果所述拍摄范围内的人脸图像的数量为多个,所述从所述多个语音中,识别与所述嘴部运动信息匹配的所述目标语音,包括:利用多个人脸图像各自的嘴部运动信息,得到相应的嘴部运动时间;从所述多个语音中,识别与各嘴部运动时间匹配的待定语音;如果所述待定语音的数量为一个,将所述待定语音确定为所述目标语音;如果所述待定语音的数量为多个,将与最大嘴部运动时间匹配的待定语音确定为所述目标语音。在一些实施例中,如果所述拍摄范围内的人脸图像的数量为多个,所述从所述多个语音中,识别与所述嘴部运动信息匹配的所述目标语音,包括:从所述多个语音中,识别与多个人脸图像各自的嘴部运动信息匹配的待定语音;对识别出的所述待定语音进行声源定位,得到相应的声源位置,选择最大声源位置对应的待定语音为所述目标语音;或者,获取多个人脸图像各自的拍摄位置信息,选择满足识别条件的拍摄位置信息对应的待定语音为所述目标语音。在一些实施例中,所述方法还包括:增强所述目标语音的信号强度;将增强后的目标语音转换为文本信息。又一方面,本申请还提出了一种语音辅助识别装置,所述装置包括:数据获取模块,用于获取语音信息及拍摄范围内的人脸图像,所述语音信息包含多个语音;模型数据输入模块,用于将所述人脸图像中的嘴部运动信息以及所述语音信息输入到语音辅助训练模型的输入层;语音识别模块,用于利用所述语音辅助训练模型进行计算,通过所述语音辅助训练模型输出层获取文本信息,以响应输入的所述嘴部运动信息以及所述语音信息,其中,所述文本信息与所述多个语音中与所述嘴部运动信息匹配的目标语音对应;信息输出模块,用于输出所述文本信息。在一些实施例中,所述语音识别模块包括:语音匹配单元,用于从所述多个语音中,识别与所述嘴部运动信息匹配的所述目标语音;信息传输单元,用于将所述目标语音或由所述目标语音转换得到的文本信息输入到所述语音辅助训练模型的输出层;信息输出单元,用于在输入到所述语音辅助训练模型的输出层的是所述目标语音的情况下,将所述语音辅助训练模型输出层输出的所述目标语音转换为文本信息。又一方面,本申请还提出了一种存储介质,其上存储有程序,所述程序被处理器调用并执行,实现如上述的语音辅助识别方法的各步骤。又一方面,本申请还提出了一种电子设备,所述电子设备包括:图像采集器,用于采集当前拍摄范围内的人脸图像;声音采集器,用于采集当前语音信息;通信接口;存储器,用于存储实现如上述的语音辅助识别方法的程序;处理器,用于加载并执行所述存储器存储的程序,以实现如上述的语音辅助识别方法的各步骤。由此可见,与现有技术相比,本申请提供了一种语音识别方法、装置、存储介质及电子设备,若电子设备使用者在操作的场景下对电子设备输出目标语音,电子设备在获取包含多个语音的语音信息的同时,可以获取拍摄范围内人脸图像的嘴部运动信息,之后,利用预先训练处的语音辅助训练模型,对该嘴部运动信息及多个语音进行分析计算,快速且准确地从这多个语音中提取出电子设备使用者输出的目标语音,进而保证了输出的文本信息即为使用者在嘈杂场景下所说的内容,极大提高了嘈杂场景下语音识别的效率及准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1示出了本申请实施例提出的一种电子设备的硬件结构示意图;图2示出了本申请提出的语音辅助识别方法的一可选示例的流程图;图3示出了本申请提出的语音辅助识别方法的一可选示例的应用场景示意图;图4示出了本申请提出的语音辅助识别方法中,语音辅助训练模型的一种可选计算过程实施例的流程图;图5示出了本申请提出的语音辅助识别装置的一可选示例的结构图;图6示出了本申请提出的语音辅助识别装置的又一可选示例的结构图;图7示出了本申请提出的语音辅助识别装置的又一可选示例的结构图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。应当理本文档来自技高网...

【技术保护点】
1.一种语音辅助识别方法,所述方法包括:/n获取语音信息及拍摄范围内的人脸图像,所述语音信息包含多个语音;/n将所述人脸图像中的嘴部运动信息以及所述语音信息输入到语音辅助训练模型的输入层;/n利用所述语音辅助训练模型进行计算,通过所述语音辅助训练模型输出层获取文本信息,以响应输入的所述嘴部运动信息以及所述语音信息,其中,所述文本信息与所述多个语音中与所述嘴部运动信息匹配的目标语音对应;/n输出所述文本信息。/n

【技术特征摘要】
1.一种语音辅助识别方法,所述方法包括:
获取语音信息及拍摄范围内的人脸图像,所述语音信息包含多个语音;
将所述人脸图像中的嘴部运动信息以及所述语音信息输入到语音辅助训练模型的输入层;
利用所述语音辅助训练模型进行计算,通过所述语音辅助训练模型输出层获取文本信息,以响应输入的所述嘴部运动信息以及所述语音信息,其中,所述文本信息与所述多个语音中与所述嘴部运动信息匹配的目标语音对应;
输出所述文本信息。


2.根据权利要求1所述的方法,所述利用所述语音辅助训练模型进行计算,包括:
从所述多个语音中,识别与所述嘴部运动信息匹配的所述目标语音;
将所述目标语音或由所述目标语音转换得到的文本信息输入到所述语音辅助训练模型的输出层;
如果输入到所述语音辅助训练模型的输出层的是所述目标语音,所述通过所述语音辅助训练模型输出层获取文本信息,包括:
将所述语音辅助训练模型输出层输出的所述目标语音转换为文本信息。


3.根据权利要求2所述的方法,所述从所述多个语音中,识别与所述嘴部运动信息匹配的所述目标语音,包括:
利用所述嘴部运动信息,得到嘴部运动时间;
获取所述多个语音各自的语音输出时间;
将与所述嘴部运动时间匹配的语音输出时间对应的语音确定为目标语音。


4.根据权利要求2所述的方法,如果所述拍摄范围内的人脸图像的数量为多个,所述从所述多个语音中,识别与所述嘴部运动信息匹配的所述目标语音,包括:
利用多个人脸图像各自的嘴部运动信息,得到相应的嘴部运动时间;
从所述多个语音中,识别与各嘴部运动时间匹配的待定语音;
如果所述待定语音的数量为一个,将所述待定语音确定为所述目标语音;
如果所述待定语音的数量为多个,将与最大嘴部运动时间匹配的待定语音确定为所述目标语音。


5.根据权利要求2所述的方法,如果所述拍摄范围内的人脸图像的数量为多个,所述从所述多个语音中,识别与所述嘴部运动信息匹配的所述目标语音,包括:
从所述多个语音中,识别与多个人脸图像各自的嘴部运动信息匹...

【专利技术属性】
技术研发人员:张银平杨琳徐培来汪俊杰王旭阳
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1