语音识别方法、装置和电子设备制造方法及图纸

技术编号:27529042 阅读:15 留言:0更新日期:2021-03-03 11:02
本公开提供了一种语音识别方法、装置和电子设备,上述语音识别方法中,在用户进行语音输入时,可以在采集音频的同时,对用户的唇部进行拍摄,然后基于当前帧图像和历史帧图像的至少一个第一唇部区域,获取用户在当前帧图像中的第二唇部区域;并行地,可以基于当前帧音频和历史帧音频的至少一个第一语音特征,获取当前帧音频的第二语音特征。之后可以根据上述语音特征和上述唇部区域,获取当前帧的音素概率分布,进而可以根据上述音素概率分布,获得当前帧音频的语音识别结果,从而可以实现将视频的唇部区域和音频的语音特征相结合,来进行语音识别,大大提高了语音识别在噪声场景下的识别效果。识别效果。识别效果。

【技术实现步骤摘要】
语音识别方法、装置和电子设备


[0001]本公开涉及语音识别
,尤其涉及一种语音识别方法、装置和电子设备。

技术介绍

[0002]随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。语音识别技术,也被称为自动语音识别(automatic speech recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。

技术实现思路

[0003]相关技术中,语音识别方案通常包括以下步骤:语音信号降噪、特征提取、音素分类和解码,但是这种语音识别方案在高噪声(即低信噪比)的场景下,语音识别的效果较差。
[0004]为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种语音识别方法、装置和电子设备。
[0005]本公开第一方面的实施例提供了一种语音识别方法,包括:获取预设时间段内的视频流和音频流,所述预设时间段内的视频流包括当前帧图像和所述当前帧图像之前的历史帧图像,所述预设时间段内的音频流包括当前帧音频和所述当前帧音频之前的历史帧音频;获取所述历史帧图像的至少一个第一唇部区域,并基于当前帧图像和所述至少一个第一唇部区域,确定用户在所述当前帧图像中的第二唇部区域;以及,获取所述历史帧音频的至少一个第一语音特征,并基于当前帧音频和所述至少一个第一语音特征,获取所述当前帧音频的第二语音特征;其中,所述当前帧图像中的第二唇部区域与所述第二语音特征对应;根据所述至少一个第一唇部区域、所述第二唇部区域、所述至少一个第一语音特征和所述第二语音特征,获取当前帧的音素概率分布;根据所述音素概率分布,获得所述当前帧音频的语音识别结果。
[0006]上述语音识别方法中,在用户进行语音输入时,可以在采集音频的同时,对用户的唇部进行拍摄,然后基于当前帧图像和历史帧图像的至少一个第一唇部区域,获取用户在当前帧图像中的第二唇部区域;并行地,可以基于当前帧音频和历史帧音频的至少一个第一语音特征,获取当前帧音频的第二语音特征。之后可以根据上述语音特征和上述唇部区域,获取当前帧的音素概率分布,进而可以根据上述音素概率分布,获得当前帧音频的语音识别结果,从而可以实现将视频的唇部区域和音频的语音特征相结合,来进行语音识别,大大提高了语音识别在噪声场景下的识别效果。
[0007]本公开第二方面的实施例提供了一种语音识别装置,包括:获取模块,用于获取预设时间段内的视频流和音频流,所述预设时间段内的视频流包括当前帧图像和所述当前帧图像之前的历史帧图像,所述预设时间段内的音频流包括当前帧音频和所述当前帧音频之前的历史帧音频;获取所述历史帧图像的至少一个第一唇部区域,并基于当前帧图像和所
述至少一个第一唇部区域,确定用户在所述当前帧图像中的第二唇部区域;以及,获取所述历史帧音频的至少一个第一语音特征,并基于当前帧音频和所述至少一个第一语音特征,获取所述当前帧音频的第二语音特征;其中,所述当前帧图像中的第二唇部区域与所述第二语音特征对应;识别模块,用于根据所述至少一个第一唇部区域、所述第二唇部区域、所述至少一个第一语音特征和所述第二语音特征,获取当前帧的音素概率分布;解码模块,用于根据所述识别模块获取的音素概率分布,获得所述当前帧音频的语音识别结果。
[0008]本公开第三方面的实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行第一方面提供的语音识别方法。
[0009]本公开第四方面的实施例提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述第一方面的语音识别方法。
[0010]应当理解的是,本公开第二~第四方面的实施例与本公开第一方面的实施例的技术方案一致,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
附图说明
[0011]通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
[0012]图1为本公开一示例性实施例提供的语音识别方法的流程图;
[0013]图2为本公开另一示例性实施例提供的语音识别方法的流程图;
[0014]图3为本公开再一示例性实施例提供的语音识别方法的流程图;
[0015]图4为本公开再一示例性实施例提供的语音识别方法的流程图;
[0016]图5为本公开一示例性实施例提供的语音识别装置的结构示意图;
[0017]图6为本公开另一示例性实施例提供的语音识别装置的结构示意图;
[0018]图7为本公开一示例性实施例提供的电子设备的结构示意图。
具体实施方式
[0019]下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
[0020]现有相关技术提供的语音识别方案在高噪声(即低信噪比)的场景下,语音识别的效果较差,为解决这个问题,本公开实施例提供一种语音识别方法,结合语音和视频序列双通道信息作为输入,构建声学模型,大大提高了语音识别在噪声场景下的识别效果。
[0021]图1为本公开一示例性实施例提供的语音识别方法的流程图,如图1所示,上述语音识别方法可以包括:
[0022]步骤101,获取预设时间段内的视频流和音频流,上述预设时间段内的视频流包括当前帧图像和当前帧图像之前的历史帧图像,上述预设时间段内的音频流包括当前帧音频和当前帧音频之前的历史帧音频。
[0023]步骤102,获取上述历史帧图像的至少一个第一唇部区域,并基于当前帧图像和至少一个第一唇部区域,确定用户在当前帧图像中的第二唇部区域;以及,获取上述历史帧音频的至少一个第一语音特征,并基于当前帧音频和至少一个第一语音特征,获取当前帧音频的第二语音特征。
[0024]其中,当前帧图像中的第二唇部区域与第二语音特征对应,具体地,第二唇部区域与第二语音特征对应可以为:第二唇部区域是从当前帧图像中获取的,第二语音特征是拍摄当前帧图像时采集的音频的语音特征。
[0025]具体地,基于当前帧图像和至少一个第一唇部区域,确定用户在上述当前帧图像中的第二唇部区域可以为:对当前帧图像进行人脸检测,定位用户的脸部区域,然后根据至少一个第一唇部区域,对上述用户的脸部区域进行唇部检测,定位上述用户在当前帧图像中的第二唇部区域,从当前帧图像中截取上述第二唇部区域。
[0026]进一步地,在从当前帧图像中截取上述第二唇部区域之后,可以插值并改变第二唇部区域的图片大小至指定大小,并本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,包括:获取预设时间段内的视频流和音频流,所述预设时间段内的视频流包括当前帧图像和所述当前帧图像之前的历史帧图像,所述预设时间段内的音频流包括当前帧音频和所述当前帧音频之前的历史帧音频;获取所述历史帧图像的至少一个第一唇部区域,并基于当前帧图像和所述至少一个第一唇部区域,确定用户在所述当前帧图像中的第二唇部区域;获取所述历史帧音频的至少一个第一语音特征,并基于当前帧音频和所述至少一个第一语音特征,获取所述当前帧音频的第二语音特征;其中,所述当前帧图像中的第二唇部区域与所述第二语音特征对应;根据所述至少一个第一唇部区域、所述第二唇部区域、所述至少一个第一语音特征和所述第二语音特征,获取当前帧的音素概率分布;根据所述音素概率分布,获得所述当前帧音频的语音识别结果。2.根据权利要求1所述的方法,其中,所述获取预设时间段内的视频流和音频流之前,还包括:对采集到的音频流进行语音端点检测;根据所述语音端点检测的结果,划分所述预设时间段。3.根据权利要求2所述的方法,其中,所述根据所述语音端点检测的结果,划分所述预设时间段包括:从所述语音端点检测的结果中,获得采集到的音频流中每段音频流的起始时间点和与所述起始时间点对应的终止时间点;将所述起始时间点作为所述预设时间段的起始时刻,将所述终止时间点作为所述预设时间段的终止时刻。4.根据权利要求1所述的方法,其中,所述基于当前帧图像和所述至少一个第一唇部区域,确定用户在所述当前帧图像中的第二唇部区域包括:对所述当前帧图像进行人脸检测,定位所述用户的脸部区域;根据所述至少一个第一唇部区域,对所述用户的脸部区域进行唇部检测,定位所述用户在所述当前帧图像中的第二唇部区域;从所述当前帧图像中截取所述第二唇部区域。5.根据权利要求1所述的方法,其中,所述根据所述音素概率分布,获得所述当前帧音频的语音识别结果包括:根据所述音素概率分布,通过解码器进行识别,获得所述当前帧音频的语音识别结果。6.根据权利要求1-5任意一项所述的方法,其中,所述根据所述至...

【专利技术属性】
技术研发人员:宫一尘
申请(专利权)人:北京地平线机器人技术研发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1