语音识别方法、装置、设备、存储介质和程序产品制造方法及图纸

技术编号：35344925 阅读：18 留言：0更新日期：2022-10-26 12:10

本申请涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取待进行身份认证的目标用户的目标视频，并基于目标视频提取多个数据集，各数据集包括目标用户的声音片段和目标用户的脸部图像，且，各数据集中的声音片段和脸部图像的视频时间对应；对于各数据集，提取数据集中的脸部图像的至少两个脸部特征；对于各数据集，将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到语音识别模型输出的与数据集对应的语音识别结果。采用本方法能够提高语音识别的准确率。的准确率。的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、设备、存储介质和程序产品

[0001]本申请涉及人工智能
，特别是涉及一种语音识别方法、装置、设备、存储介质和程序产品。

技术介绍

[0002]随着语音识别技术的迅速发展，语音作为身份识别的有效手段逐渐成熟，即利用语音识别技术准确识别出语音的内容，并根据识别出的内容去执行身份识别的操作。
[0003]传统的语音识别技术通常是基于声学特征实现语音内容的识别。
[0004]但是，这种语音识别方式，识别准确率低。

技术实现思路

[0005]基于此，有必要针对上述技术问题，提供一种能够提高语音识别准确率的语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面，本申请提供了一种语音识别方法。该方法包括：
[0007]获取待进行身份认证的目标用户的目标视频，并基于目标视频提取多个数据集，各数据集包括目标用户的声音片段和目标用户的脸部图像，且，各数据集中的声音片段和脸部图像的视频时间对应；
[0008]对于各数据集，提取数据集中的脸部图像的至少两个脸部特征；
[0009]对于各数据集，将数据集中的声音片段和数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到语音识别模型输出的与数据集对应的语音识别结果。
[0010]在其中一个实施例中，该至少两个脸部特征包括面部表情特征，提取数据集中的脸部图像的至少两个脸部特征，包括：
[0011]将数据集中的脸部图像输入至面部表情识别...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：获取待进行身份认证的目标用户的目标视频，并基于所述目标视频提取多个数据集，各所述数据集包括所述目标用户的声音片段和所述目标用户的脸部图像，且，各所述数据集中的声音片段和脸部图像的视频时间对应；对于各所述数据集，提取所述数据集中的脸部图像的至少两个脸部特征；对于各所述数据集，将所述数据集中的声音片段和所述数据集中的脸部图像的至少两个脸部特征，输入至预先训练的语音识别模型中，得到所述语音识别模型输出的与所述数据集对应的语音识别结果。2.根据权利要求1所述的方法，其特征在于，所述至少两个脸部特征包括面部表情特征，所述提取所述数据集中的脸部图像的至少两个脸部特征，包括：将所述数据集中的脸部图像输入至面部表情识别模型，得到所述面部表情识别模型输出的所述数据集中脸部图像的所述面部表情特征。3.根据权利要求2所述的方法，其特征在于，所述将所述数据集中的脸部图像输入至面部表情识别模型，得到所述面部表情识别模型输出的所述数据集中脸部图像的所述面部表情特征，包括：获取所述数据集中脸部图像对应的关键点热图；将所述数据集中的脸部图像以及所述关键点热图，输入至所述面部表情识别模型，得到所述面部表情识别模型输出的所述面部表情特征。4.根据权利要求2所述的方法，其特征在于，所述面部表情识别模型包括生成对抗子模型以及分类子模型；所述将所述数据集中的脸部图像输入至面部表情识别模型，得到所述面部表情识别模型输出的所述数据集中脸部图像的所述面部表情特征，包括：将所述数据集中的脸部图像输入至所述生成对抗子模型，得到与所述数据集中的脸部图像对应的无表情人脸图像；获取所述数据集中的脸部图像以及所述无表情人脸图像之间的残差信息，并将所述残差信息输入至所述分类子模型，得到所述分类子模型输出的所述面部表情特征。5.根据权利要求1所述的方法，其特征在于，所述至少两个脸部特征包括唇部运动特征；所述提取所述数据集中的脸部图像的至少两个脸部特征，包括：获取所述数据集中的脸部图像对应的唇部关键点信息；根据所述唇部关键点信息，得到所述数据集中的脸部图像的所述唇部运动特征。6.根据权利要求1所述的方法，其特征在于，所述至少两个脸部特征包括真假脸表征特征；所述提取所述数据集中的脸部图像的至少两个脸部特征，包括：获取所述数据集中的脸部图像对应的脸部骨骼信息；基于所述脸部骨骼信息，得到所述数据集中的脸部图像的所述真假脸表征特征。7.根据权利要求1所述的方法，其特征在于，所述将所述数据集中的声音...

【专利技术属性】
技术研发人员：崔洋洋，余俊澎，王星宇，
申请(专利权)人：上海游密信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人