音视频数据的处理方法及装置、电子设备、存储介质制造方法及图纸

技术编号：33637794 阅读：31 留言：0更新日期：2022-06-02 01:53

本申请公开了一种音视频数据的处理方法及装置、电子设备、存储介质，所述方法包括：获取原始视频；基于嘴部与音频的同步性，从原始视频中提取出多组同步音视频数据；分别针对每组同步音视频数据，检测同步音视频数据的各帧图像中是否存在目标帧图像；目标帧图像指代被遮挡的说话人嘴部的目标帧图像；若存在目标帧图像，则将目标帧图像及其对应的音频，从同步音视频数据中剔除，得到同步音视频数据对应的已处理同步音视频数据；若不存在目标帧图像，则将同步音视频数据确定为其对应的已处理同步音视频数据；输出同步音视频数据对应的已处理同步音视频数据。从而有效地提高了提取同步的音频数据的工作效率，也保证了提取同步的音频数据的准确性。频数据的准确性。频数据的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
音视频数据的处理方法及装置、电子设备、存储介质

[0001]本申请涉及数据处理领域，尤其涉及一种音视频数据的处理方法及装置、电子设备、存储介质。

技术介绍

[0002]随着人们生活水平的提高，人工智能技术也在不断地普及，在制作精良的虚拟人的过程中，除了必须有的构件之外，也非常注重虚拟人的口型输出模型，但为这些口型输出模型挑选同步的音视频数据进行训练却是一个非常重要且工作量庞大的工作。
[0003]现有的口型数据提取方式，主要是通过人工的方式进行视频播放，在视频播放的过程中，人工确定同步的音频与视频，并将同步的音频与视频通过视频编辑软件进行截取。
[0004]但是，由于需要提取同步的音频数据数量较多，通过人工的方式提取同步的音频数据的效率过低，并且在提取的过程中还容易存在误差。

技术实现思路

[0005]基于上述现有技术的不足，本申请提供了一种音视频数据的处理方法及装置、电子设备、存储介质，以解决现有的提取音频数据效率过低，并且还容易存在误差的问题。
[0006]为了实现上述目的，本申请...

【技术保护点】

【技术特征摘要】
1.一种音视频数据的处理方法，其特征在于，包括：获取原始视频；基于嘴部与音频的同步性，从所述原始视频中提取出多组同步音视频数据；其中，一组所述同步音视频数据包括一段说话人说话的视频数据以及与所述视频数据中的说话人嘴部同步的一段音频数据；分别针对每组所述同步音视频数据，检测所述同步音视频数据的各帧图像中是否存在目标帧图像；其中，所述目标帧图像指代图像中的说话人嘴部区域被遮挡的图像；若检测出所述同步音视频数据的各帧所述图像中存在所述目标帧图像，则将所述目标帧图像及其对应的音频，从所述同步音视频数据中剔除，得到所述同步音视频数据对应的已处理同步音视频数据；若检测出所述同步音视频数据的各帧所述图像中不存在所述目标帧图像，则将所述同步音视频数据确定为其对应的已处理同步音视频数据；输出所述同步音视频数据对应的已处理同步音视频数据。2.根据权利要求1所述的方法，其特征在于，所述基于嘴部与音频的同步性，从所述原始视频中提取出多组同步音视频数据，包括：将所述原始视频拆分为多段说话人说话的视频数据以及多段音频数据；提取每段所述视频数据对应的特征向量以及每段所述音频数据对应的特征向量；其中，所述视频数据对应的特征向量，从所述视频数据的各帧图像中的说话人嘴部区域提取到；针对每段所述视频数据，将对应的特征向量与所述视频数据对应的特征向量的距离小于第一预设阈值的所述音频数据，确定为与所述视频数据同步的所述音频数据；分别将每段所述视频数据以及与其同步的所述音频数据合并为一组所述同步音视频数据。3.根据权利要求2所述的方法，其特征在于，所述提取每段所述视频数据对应的特征向量，包括：分别截取每段所述视频数据的各帧图像中的说话人嘴部区域；对所述说话人嘴部区域分别对每段所述视频数据的各帧图像中的说话人嘴部区域进行特征提取，得到每段所述视频数据对应的特征向量。4.根据权利要求1所述的方法，其特征在于，所述检测所述同步音视频数据的各帧图像中是否存在目标帧图像，包括：分别针对所述同步音视频的每帧图像，将预设的特征模板放置于所述图像的人脸区域的上层的图层上；其中，所述特征模板至少包括白色区域和黑色区域；计算所述图像的人脸区域在所述白色区域下的像素和与在黑色区域下的像素和的差值，得到所述图像的人脸区域对应的人脸特征值；检测所述图像的人脸区域对应的人脸特征值是否小于第二预设阈值；若检测出所述图像的人脸区域对应的人脸特征值小于第二预设阈值，则将所述图像的人脸区域对应的人脸特征值小于第二预设阈值的所述图像，确定为目标帧图像。5.根据权利要求4所述的方法，其特征在于，所述将所述目标帧图像及其对应的音频，从所述同步音视频数据中剔除，得到所述同步音视频数据对应的已处理同步音视频数据，
包括：从所述同步音视频数据的各帧所...

【专利技术属性】
技术研发人员：向钊豫，
申请(专利权)人：湖南快乐阳光互动娱乐传媒有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人