一种语音识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38529978 阅读:13 留言:0更新日期:2023-08-19 17:04
本公开提供了一种语音识别方法、装置、计算机设备及存储介质,包括:获取待识别视频,并对所述待识别视频进行预处理,从所述待识别视频中提取目标音频序列和目标唇部关键点序列;将所述目标音频序列和所述目标唇部关键点序列输入至预先训练的语音识别网络中,分别对所述目标音频序列进行特征提取,得到音频特征;以及,对所述目标唇部关键点序列进行特征提取,得到唇部特征;将所述音频特征和所述唇部特征进行融合,得到融合特征;基于所述融合特征,确定所述待识别视频对应的语音识别结果。确定所述待识别视频对应的语音识别结果。确定所述待识别视频对应的语音识别结果。

【技术实现步骤摘要】
一种语音识别方法、装置、计算机设备及存储介质


[0001]本公开涉及计算机
,具体而言,涉及一种语音识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]语音识别技术被广泛应用在各种场景,一般的,在进行语音识别时是直接识别音频。但是音频识别精度容易受到周边环境的影响,例如在噪声过大、某些不方便大声讲话的场景等,在这些场景下音频识别精度可能较低。为了提高语音识别精度,相关技术中还结合了唇语识别。
[0003]具体的,在确定最终的语音识别结果时,可以通过人为设置规则,结合唇语识别结果和音频识别结果确定最终的语音识别结果。然而这种方法需要认为设置规则,并且当场景发生变化时,可能需要重新设置规则,鲁棒性较差。

技术实现思路

[0004]本公开实施例至少提供一种语音识别方法、装置、计算机设备及存储介质。
[0005]第一方面,本公开实施例提供了一种语音识别方法,包括:
[0006]获取待识别视频,并对所述待识别视频进行预处理,从所述待识别视频中提取目标音频序列和目标唇部关键点序列;
[0007]将所述目标音频序列和所述目标唇部关键点序列输入至预先训练的语音识别网络中,分别对所述目标音频序列进行特征提取,得到音频特征;以及,对所述目标唇部关键点序列进行特征提取,得到唇部特征;
[0008]将所述音频特征和所述唇部特征进行融合,得到融合特征;
[0009]基于所述融合特征,确定所述待识别视频对应的语音识别结果。
[0010]本公开实施例提供的语音识别方法中,可以在特征层面将音频特征和唇部特征进行融合,得到融合特征,然后基于融合特征确定待识别视频对应的语音识别结果,这样无需额外设置语音识别结果和唇语识别结果的融合条件,就可以直接确定语音识别结果,适用于多种场景,鲁棒性较高。并且,由于在确定语音识别结果时,融合了音频特征和唇部特征,因此确定出的语音识别结果的精度较高。
[0011]一种可能的实施方式中,所述对所述待识别视频进行预处理,从所述待识别视频中提取目标音频序列和目标唇部关键点序列,包括:
[0012]检测所述待识别视频中各帧视频帧对应的唇部关键点信息,各帧视频帧对应的唇部关键点信息构成唇部关键点序列;
[0013]基于所述唇部关键点序列,确定至少一组语音时间戳,所述语音时间戳包括语音的开始时间戳和结束时间戳;
[0014]基于所述至少一组语音时间戳,从所述待识别视频中提取所述目标音频序列和目标唇部关键点序列。
[0015]通过这种方法,可以从所述待识别视频对应的较长的音频序列和唇部关键点序列中,提取出用户正在说话的时的目标音频序列和目标唇部关键点序列,由此可以降低后续进行特征提取时的计算量,并避免其他序列对于特征精度的影响,提升语音识别结果的精度。
[0016]一种可能的实施方式中,所述基于所述唇部关键点序列,确定至少一组语音时间戳,包括:
[0017]按照预设时间窗口长度,将所述唇部关键点序列依次输入至预先训练的唇动网络,确定输入的唇动关键点序列对应的唇动检测结果;其中,所述唇动检测结果用于表征所述唇动关键点序列对应的视频帧中的用户是否在说话;
[0018]基于所述唇动关键点序列对应的唇动检测结果,确定所述至少一组语音时间戳。
[0019]通过这种方式,可以快速识别出所述待检测视频中用户说话的时间区间,便于快速进行后续语音识别的步骤,提升语音识别的精度。
[0020]一种可能的实施方式中,所述基于所述至少一组语音时间戳,从所述待识别视频中提取所述目标音频序列和目标唇部关键点序列,包括:
[0021]基于所述语音时间戳,从所述待识别视频的初始音频中提取目标音频片段,并将所述目标音频片段转换为所述目标音频序列;以及,
[0022]基于所述语音时间戳,从所述唇部关键点序列中提取所述目标唇部关键点序列。
[0023]一种可能的实施方式中,所述语音识别网络包括音频特征提取模块和唇部特征提取模块;
[0024]所述分别对所述目标音频序列进行特征提取,得到音频特征;以及,对所述目标唇部关键点序列进行特征提取,得到唇部特征,包括:
[0025]将所述目标音频序列输入至所述音频特征提取模块进行第一特征提取,得到所述音频特征;以及,
[0026]将所述目标唇部关键点序列输入指至所述唇部特征提取模块进行第二特征提取,得到所述唇部特征。
[0027]通过不同的模块分别提取音频特征和唇部特征,可以使各个模块专注于提取对应的特征,提取到的音频特征和唇部特征的精度都比较高;并且提取音频特征和唇部特征的步骤可以并行执行,提升了特征提取的精度。
[0028]一种可能的实施方式中,所述方法还包括根据以下方法训练所述语音识别网络:
[0029]获取样本视频,以及样本视频对应的语音标签,所述语音标签用于表征所述样本视频中的语音真值;
[0030]对所述样本视频进行预处理,从所述样本视频中提取样本音频特征和样本唇部关键点特征;
[0031]将所述样本音频特征和所述样本唇部关键点特征输入至待训练的语音识别网络中,分别对所述样本音频序列进行第一特征提取,得到样本音频特征;以及,对所述样本唇部关键点序列进行第二特征提取,得到样本唇部特征;
[0032]将所述样本音频特征和所述样本唇部特征进行融合,得到融合特征,并基于所述融合特征确定第一语音识别结果;基于所述样本音频特征确定第二语音识别结果;以及基于所述样本唇部特征确定第三语音识别结果;
[0033]基于所述第一语音识别结果、所述第二语音识别结果、所述第三语音识别结果以及所述语音标签对所述待训练的语音识别网络进行训练。
[0034]在这种实施方式中,在训练语音识别网络时,通过第二语音识别结果和第三语音识别结果进行辅助训练,可以提升语音识别精度,保证在任一类别的信息噪声较大时的识别精度,提升模型鲁棒性。
[0035]一种可能的实施方式中,所述基于所述第一语音识别结果、所述第二语音识别结果、所述第三语音识别结果以及所述语音标签对所述待训练的语音识别网络进行训练,包括:
[0036]基于所述第一语音识别结果和所述语音标签,确定第一损失值;以及,
[0037]基于所述第二语音识别结果和所述语音标签,确定第二损失值;以及,
[0038]基于所述第三语音识别结果和所述语音标签,确定第三损失值;
[0039]基于所述第一损失值、所述第二损失值和所述第三损失值,对所述待训练的语音识别网络进行训练。
[0040]第二方面,本公开实施例还提供一种语音识别装置,包括:
[0041]获取模块,用于获取待识别视频,并对所述待识别视频进行预处理,从所述待识别视频中提取目标音频序列和目标唇部关键点序列;
[0042]特征提取模块,用于将所述目标音频序列和所述目标唇部关键点序列输入至预先训练的语音识别网络中,分别对所述目标音频序列进行特征提取,得到音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别视频,并对所述待识别视频进行预处理,从所述待识别视频中提取目标音频序列和目标唇部关键点序列;将所述目标音频序列和所述目标唇部关键点序列输入至预先训练的语音识别网络中,对所述目标音频序列进行特征提取,得到音频特征;以及,对所述目标唇部关键点序列进行特征提取,得到唇部特征;将所述音频特征和所述唇部特征进行融合,得到融合特征;基于所述融合特征,确定所述待识别视频对应的语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述对所述待识别视频进行预处理,从所述待识别视频中提取目标音频序列和目标唇部关键点序列,包括:检测所述待识别视频中各帧视频帧对应的唇部关键点信息,各帧视频帧对应的唇部关键点信息构成唇部关键点序列;基于所述唇部关键点序列,确定至少一组语音时间戳,所述语音时间戳包括语音的开始时间戳和结束时间戳;基于所述至少一组语音时间戳,从所述待识别视频中提取所述目标音频序列和目标唇部关键点序列。3.根据权利要求2所述的方法,其特征在于,所述基于所述唇部关键点序列,确定至少一组语音时间戳,包括:按照预设时间窗口长度,将所述唇部关键点序列依次输入至预先训练的唇动网络,确定输入的唇动关键点序列对应的唇动检测结果;其中,所述唇动检测结果用于表征所述唇动关键点序列对应的视频帧中的用户是否在说话;基于所述唇动关键点序列对应的唇动检测结果,确定所述至少一组语音时间戳。4.根据权利要求2所述的方法,其特征在于,所述基于所述至少一组语音时间戳,从所述待识别视频中提取所述目标音频序列和目标唇部关键点序列,包括:基于所述语音时间戳,从所述待识别视频的初始音频中提取目标音频片段,并将所述目标音频片段转换为所述目标音频序列;以及,基于所述语音时间戳,从所述唇部关键点序列中提取所述目标唇部关键点序列。5.根据权利要求1所述的方法,其特征在于,所述语音识别网络包括音频特征提取模块和唇部特征提取模块;所述对所述目标音频序列进行特征提取,得到音频特征;以及,对所述目标唇部关键点序列进行特征提取,得到唇部特征,包括:将所述目标音频序列输入至所述音频特征提取模块进行第一特征提取,得到所述音频特征;以及,将所述目标唇部关键点序列输入指至所述唇部特征提取模块进行第二特征提取,得到所述唇部特征。6.根据权利要求1所述的方法,其特征在于,所述方法还包括根据以下方法训练所述语音识别网络:获取样本视频...

【专利技术属性】
技术研发人员:康硕王飞钱晨
申请(专利权)人:上海临港绝影智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1