一种语音识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：38529978 阅读：13 留言：0更新日期：2023-08-19 17:04

本公开提供了一种语音识别方法、装置、计算机设备及存储介质，包括：获取待识别视频，并对所述待识别视频进行预处理，从所述待识别视频中提取目标音频序列和目标唇部关键点序列；将所述目标音频序列和所述目标唇部关键点序列输入至预先训练的语音识别网络中，分别对所述目标音频序列进行特征提取，得到音频特征；以及，对所述目标唇部关键点序列进行特征提取，得到唇部特征；将所述音频特征和所述唇部特征进行融合，得到融合特征；基于所述融合特征，确定所述待识别视频对应的语音识别结果。确定所述待识别视频对应的语音识别结果。确定所述待识别视频对应的语音识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法、装置、计算机设备及存储介质

[0001]本公开涉及计算机
，具体而言，涉及一种语音识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]语音识别技术被广泛应用在各种场景，一般的，在进行语音识别时是直接识别音频。但是音频识别精度容易受到周边环境的影响，例如在噪声过大、某些不方便大声讲话的场景等，在这些场景下音频识别精度可能较低。为了提高语音识别精度，相关技术中还结合了唇语识别。
[0003]具体的，在确定最终的语音识别结果时，可以通过人为设置规则，结合唇语识别结果和音频识别结果确定最终的语音识别结果。然而这种方法需要认为设置规则，并且当场景发生变化时，可能需要重新设置规则，鲁棒性较差。

技术实现思路

[0004]本公开实施例至少提供一种语音识别方法、装置、计算机设备及存储介质。
[0005]第一方面，本公开实施例提供了一种语音识别方法，包括：
[0006]获取待识别视频，并对所述待识别视频进行预处理，从所述待识别视频中提取目标音频序列和目标唇部关键点序列；
[0007]将所述目标音频序列和所述目标唇部关键点序列输入至预先训练的语音识别网络中，分别对所述目标音频序列进行特征提取，得到音频特征；以及，对所述目标唇部关键点序列进行特征提取，得到唇部特征；
[0008]将所述音频特征和所述唇部特征进行融合，得到融合特征；
[0009]基于所述融合特征，确定所述待识别视频对应的语音识别结果。
[0010]本公开实施例提供的语音...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：获取待识别视频，并对所述待识别视频进行预处理，从所述待识别视频中提取目标音频序列和目标唇部关键点序列；将所述目标音频序列和所述目标唇部关键点序列输入至预先训练的语音识别网络中，对所述目标音频序列进行特征提取，得到音频特征；以及，对所述目标唇部关键点序列进行特征提取，得到唇部特征；将所述音频特征和所述唇部特征进行融合，得到融合特征；基于所述融合特征，确定所述待识别视频对应的语音识别结果。2.根据权利要求1所述的方法，其特征在于，所述对所述待识别视频进行预处理，从所述待识别视频中提取目标音频序列和目标唇部关键点序列，包括：检测所述待识别视频中各帧视频帧对应的唇部关键点信息，各帧视频帧对应的唇部关键点信息构成唇部关键点序列；基于所述唇部关键点序列，确定至少一组语音时间戳，所述语音时间戳包括语音的开始时间戳和结束时间戳；基于所述至少一组语音时间戳，从所述待识别视频中提取所述目标音频序列和目标唇部关键点序列。3.根据权利要求2所述的方法，其特征在于，所述基于所述唇部关键点序列，确定至少一组语音时间戳，包括：按照预设时间窗口长度，将所述唇部关键点序列依次输入至预先训练的唇动网络，确定输入的唇动关键点序列对应的唇动检测结果；其中，所述唇动检测结果用于表征所述唇动关键点序列对应的视频帧中的用户是否在说话；基于所述唇动关键点序列对应的唇动检测结果，确定所述至少一组语音时间戳。4.根据权利要求2所述的方法，其特征在于，所述基于所述至少一组语音时间戳，从所述待识别视频中提取所述目标音频序列和目标唇部关键点序列，包括：基于所述语音时间戳，从所述待识别视频的初始音频中提取目标音频片段，并将所述目标音频片段转换为所述目标音频序列；以及，基于所述语音时间戳，从所述唇部关键点序列中提取所述目标唇部关键点序列。5.根据权利要求1所述的方法，其特征在于，所述语音识别网络包括音频特征提取模块和唇部特征提取模块；所述对所述目标音频序列进行特征提取，得到音频特征；以及，对所述目标唇部关键点序列进行特征提取，得到唇部特征，包括：将所述目标音频序列输入至所述音频特征提取模块进行第一特征提取，得到所述音频特征；以及，将所述目标唇部关键点序列输入指至所述唇部特征提取模块进行第二特征提取，得到所述唇部特征。6.根据权利要求1所述的方法，其特征在于，所述方法还包括根据以下方法训练所述语音识别网络：获取样本视频...

【专利技术属性】
技术研发人员：康硕，王飞，钱晨，
申请(专利权)人：上海临港绝影智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人