语音识别方法、装置、设备、存储介质和程序产品制造方法及图纸

技术编号:35344925 阅读:18 留言:0更新日期:2022-10-26 12:10
本申请涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待进行身份认证的目标用户的目标视频,并基于目标视频提取多个数据集,各数据集包括目标用户的声音片段和目标用户的脸部图像,且,各数据集中的声音片段和脸部图像的视频时间对应;对于各数据集,提取数据集中的脸部图像的至少两个脸部特征;对于各数据集,将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征,输入至预先训练的语音识别模型中,得到语音识别模型输出的与数据集对应的语音识别结果。采用本方法能够提高语音识别的准确率。的准确率。的准确率。

【技术实现步骤摘要】
语音识别方法、装置、设备、存储介质和程序产品


[0001]本申请涉及人工智能
,特别是涉及一种语音识别方法、装置、设备、存储介质和程序产品。

技术介绍

[0002]随着语音识别技术的迅速发展,语音作为身份识别的有效手段逐渐成熟,即利用语音识别技术准确识别出语音的内容,并根据识别出的内容去执行身份识别的操作。
[0003]传统的语音识别技术通常是基于声学特征实现语音内容的识别。
[0004]但是,这种语音识别方式,识别准确率低。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提高语音识别准确率的语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面,本申请提供了一种语音识别方法。该方法包括:
[0007]获取待进行身份认证的目标用户的目标视频,并基于目标视频提取多个数据集,各数据集包括目标用户的声音片段和目标用户的脸部图像,且,各数据集中的声音片段和脸部图像的视频时间对应;
[0008]对于各数据集,提取数据集中的脸部图像的至少两个脸部特征;
[0009]对于各数据集,将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征,输入至预先训练的语音识别模型中,得到语音识别模型输出的与数据集对应的语音识别结果。
[0010]在其中一个实施例中,该至少两个脸部特征包括面部表情特征,提取数据集中的脸部图像的至少两个脸部特征,包括:
[0011]将数据集中的脸部图像输入至面部表情识别模型,得到面部表情识别模型输出的数据集中脸部图像的面部表情特征。
[0012]在其中一个实施例中,该将数据集中的脸部图像输入至面部表情识别模型,得到面部表情识别模型输出的数据集中脸部图像的面部表情特征,包括:
[0013]获取数据集中脸部图像对应的关键点热图;
[0014]将数据集中的脸部图像以及关键点热图,输入至面部表情识别模型,得到面部表情识别模型输出的面部表情特征。
[0015]在其中一个实施例中,该面部表情识别模型包括生成对抗子模型以及分类子模型;将数据集中的脸部图像输入至面部表情识别模型,得到面部表情识别模型输出的数据集中脸部图像的面部表情特征,包括:
[0016]将数据集中的脸部图像输入至生成对抗子模型,得到与数据集中的脸部图像对应的无表情人脸图像;
[0017]获取数据集中的脸部图像以及无表情人脸图像之间的残差信息,并将残差信息输
入至分类子模型,得到分类子模型输出的面部表情特征。
[0018]在其中一个实施例中,该至少两个脸部特征包括唇部运动特征;提取数据集中的脸部图像的至少两个脸部特征,包括:
[0019]获取数据集中的脸部图像对应的唇部关键点信息;
[0020]根据唇部关键点信息,得到数据集中的脸部图像的唇部运动特征。
[0021]在其中一个实施例中,该至少两个脸部特征包括真假脸表征特征;提取数据集中的脸部图像的至少两个脸部特征,包括:
[0022]获取数据集中的脸部图像对应的脸部骨骼信息;
[0023]基于脸部骨骼信息,得到数据集中的脸部图像的真假脸表征特征。
[0024]在其中一个实施例中,将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征,输入至预先训练的语音识别模型中,得到语音识别模型输出的与数据集对应的语音识别结果,包括:
[0025]提取数据集中的声音片段的多个声音特征;
[0026]对多个声音特征进行融合处理,得到数据集中的声音片段对应的声音综合特征;
[0027]将声音综合特征以及数据集中的脸部图像的至少两个脸部特征,输入至语音识别模型,得到语音识别模型输出的与数据集对应的语音识别结果。
[0028]在其中一个实施例中,该语音识别模型包括Bi

LSTM子模型、SVM子模型以及CTC子模型;将声音综合特征以及数据集中的脸部图像的至少两个脸部特征,输入至语音识别模型,得到语音识别模型输出的与数据集对应的语音识别结果,包括:
[0029]将声音综合特征以及数据集中的脸部图像的至少两个脸部特征,输入至Bi

LSTM子模型,得到Bi

LSTM子模型输出的数据集对应的中间融合特征;
[0030]将中间融合特征输入至SVM子模型,得到SVM子模型输出的中间融合特征的后验概率;
[0031]基于中间融合特征以及后验概率,得到CTC子模型输出的与数据集对应的语音识别结果。
[0032]第二方面,本申请还提供了一种语音识别装置。该装置包括:
[0033]获取模块,用于获取待进行身份认证的目标用户的目标视频,并基于目标视频提取多个数据集,各数据集包括目标用户的声音片段和目标用户的脸部图像,且,各数据集中的声音片段和脸部图像的视频时间对应;
[0034]提取模块,用于对于各数据集,提取数据集中的脸部图像的至少两个脸部特征;
[0035]识别模块,用于对于各数据集,将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征,输入至预先训练的语音识别模型中,得到语音识别模型输出的与数据集对应的语音识别结果。
[0036]在其中一个实施例中,该至少两个脸部特征包括面部表情特征,该提取模块,具体用于:
[0037]将数据集中的脸部图像输入至面部表情识别模型,得到面部表情识别模型输出的数据集中脸部图像的面部表情特征。
[0038]在其中一个实施例中,该提取模块,还具体用于:
[0039]获取数据集中脸部图像对应的关键点热图;
[0040]将数据集中的脸部图像以及关键点热图,输入至面部表情识别模型,得到面部表情识别模型输出的面部表情特征。
[0041]在其中一个实施例中,该面部表情识别模型包括生成对抗子模型以及分类子模型;该提取模块,还具体用于:
[0042]将数据集中的脸部图像输入至生成对抗子模型,得到与数据集中的脸部图像对应的无表情人脸图像;
[0043]获取数据集中的脸部图像以及无表情人脸图像之间的残差信息,并将残差信息输入至分类子模型,得到分类子模型输出的面部表情特征。
[0044]在其中一个实施例中,该至少两个脸部特征包括唇部运动特征;该提取模块,还具体用于:
[0045]获取数据集中的脸部图像对应的唇部关键点信息;
[0046]根据唇部关键点信息,得到数据集中的脸部图像的唇部运动特征。
[0047]在其中一个实施例中,该至少两个脸部特征包括真假脸表征特征;该提取模块,还具体用于:
[0048]获取数据集中的脸部图像对应的脸部骨骼信息;
[0049]基于脸部骨骼信息,得到数据集中的脸部图像的真假脸表征特征。
[0050]在其中一个实施例中,该识别模块,具体用于:
[0051]提取数据集中的声音片段的多个声音特征;
[0052]对多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取待进行身份认证的目标用户的目标视频,并基于所述目标视频提取多个数据集,各所述数据集包括所述目标用户的声音片段和所述目标用户的脸部图像,且,各所述数据集中的声音片段和脸部图像的视频时间对应;对于各所述数据集,提取所述数据集中的脸部图像的至少两个脸部特征;对于各所述数据集,将所述数据集中的声音片段和所述数据集中的脸部图像的至少两个脸部特征,输入至预先训练的语音识别模型中,得到所述语音识别模型输出的与所述数据集对应的语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述至少两个脸部特征包括面部表情特征,所述提取所述数据集中的脸部图像的至少两个脸部特征,包括:将所述数据集中的脸部图像输入至面部表情识别模型,得到所述面部表情识别模型输出的所述数据集中脸部图像的所述面部表情特征。3.根据权利要求2所述的方法,其特征在于,所述将所述数据集中的脸部图像输入至面部表情识别模型,得到所述面部表情识别模型输出的所述数据集中脸部图像的所述面部表情特征,包括:获取所述数据集中脸部图像对应的关键点热图;将所述数据集中的脸部图像以及所述关键点热图,输入至所述面部表情识别模型,得到所述面部表情识别模型输出的所述面部表情特征。4.根据权利要求2所述的方法,其特征在于,所述面部表情识别模型包括生成对抗子模型以及分类子模型;所述将所述数据集中的脸部图像输入至面部表情识别模型,得到所述面部表情识别模型输出的所述数据集中脸部图像的所述面部表情特征,包括:将所述数据集中的脸部图像输入至所述生成对抗子模型,得到与所述数据集中的脸部图像对应的无表情人脸图像;获取所述数据集中的脸部图像以及所述无表情人脸图像之间的残差信息,并将所述残差信息输入至所述分类子模型,得到所述分类子模型输出的所述面部表情特征。5.根据权利要求1所述的方法,其特征在于,所述至少两个脸部特征包括唇部运动特征;所述提取所述数据集中的脸部图像的至少两个脸部特征,包括:获取所述数据集中的脸部图像对应的唇部关键点信息;根据所述唇部关键点信息,得到所述数据集中的脸部图像的所述唇部运动特征。6.根据权利要求1所述的方法,其特征在于,所述至少两个脸部特征包括真假脸表征特征;所述提取所述数据集中的脸部图像的至少两个脸部特征,包括:获取所述数据集中的脸部图像对应的脸部骨骼信息;基于所述脸部骨骼信息,得到所述数据集中的脸部图像的所述真假脸表征特征。7.根据权利要求1所述的方法,其特征在于,所述将所述数据集中的声音...

【专利技术属性】
技术研发人员:崔洋洋余俊澎王星宇
申请(专利权)人:上海游密信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1