一种音画不同步的检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号：36435556 阅读：25 留言：0更新日期：2023-01-20 22:49

本申请实施例提供了一种音画不同步的检测方法、装置、电子设备及存储介质，该方法包括：获取待检测视频在同一时段内的多个视频帧和音频；对各视频帧进行嘴部状态识别，确定嘴部处于张开状态的多个第一视频帧；根据各第一视频帧对应的时间点，将相邻时间点的视频帧合并得到至少一个第一时间片段；对音频进行语音活动检测，将发生语音活动的时间片段作为至少一个第二时间片段；计算第一时间片段和对应的第二时间片段的时间差；当时间差大于预设阈值时，则判定该第一时间片段和对应的第二时间片段为音画不同步对应的时间片段。应用本申请实施例提供的技术方案，能够降低音画不同步检测过程中的人工成本，提高音画不同步的检测效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种音画不同步的检测方法、装置、电子设备及存储介质

[0001]本申请涉及信息
，特别是涉及一种音画不同步的检测方法、装置、电子设备及存储介质。

技术介绍

[0002]目前，在视频的制作过程中，往往会出现音画不同步的问题，即配音与视频的画面不能准确保持一致。例如，视频画面中的角色正在说话或发声，而没有对应的配音，从而极大程度的影响视频的观看体验。
[0003]然而，目前针对视频中音画不同步问题的检测，一般由生产技术人员通过人工对影片进行全篇观看，并主观的判断影片的声音和画面是否同步。通过该检测方法，不但人工成本较高，而且检测效率较低。

技术实现思路

[0004]本申请实施例的目的在于提供一种音画不同步的检测方法、装置、电子设备及存储介质，以解决现有技术中音画不同步的检测效率低的问题。具体技术方案如下：
[0005]在本申请实施的第一方面，首先提供了一种音画不同步的检测方法，所述方法包括：
[0006]获取待检测视频的同一时段内的多个视频帧和音频，其中，所述音频中包含至少一句台词；
[0007本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音画不同步的检测方法，其特征在于，包括：获取待检测视频的同一时段内的多个视频帧和音频，其中，所述音频中包含至少一句台词；对各所述视频帧进行嘴部状态识别，确定嘴部处于张开状态的多个第一视频帧；根据各所述第一视频帧对应的时间点，进行相邻时间点的合并，得到至少一个第一时间片段；对所述音频进行语音活动检测，确定发生语音活动的时间片段，得到至少一个第二时间片段；计算所述第一时间片段和所述第二时间片段的时间差；当所述时间差大于预设阈值时，则判定该第一时间片段和对应的第二时间片段为音画不同步对应的时间片段。2.根据权利要求1所述的方法，其特征在于，所述对各所述视频帧进行嘴部状态识别，确定嘴部处于张开状态的多个第一视频帧，包括：对各所述视频帧进行面部检测，确定包含面部的第二视频帧；对所述第二视频帧进行嘴部状态识别，确定嘴部处于张开状态的多个第一视频帧。3.根据权利要求1所述的方法，其特征在于，所述根据各所述第一视频帧对应的时间点，进行相邻时间点的合并，得到至少一个第一时间片段，包括：对各所述第一视频帧中嘴部处于张开状态的面部进行面部特征的提取，得到各所述第一视频帧对应的面部特征；对各所述第一视频帧对应的面部特征进行相似度对比，得到一个或多个目标对象各自对应的第一视频帧集合，其中，同一第一视频帧集合中各第一视频帧对应的面部特征之间的相似度大于第一预设阈值，不同目标对象对应的面部特征之间的相似度小于第二预设阈值，所述目标对象对应的面部特征是该目标对象对应的第一视频帧集合中的第一视频帧对应的面部特征；对各所述第一视频帧集合中各所述第一视频帧对应的时间点合并，得到各所述第一视频帧集合对应的第一时间片段。4.根据权利要求3所述的方法，所述对各第一视频帧对应的面部特征进行相似度对比，得到一个或多个目标对象各自对应的第一视频帧集合，包括：计算各所述第一视频帧对应的面部特征之间的相似度；根据计算得到的相似度，将对应相似度大于第一预设阈值的第一视频帧确定为同一视频帧集合，得到一个或多个目标对象各自对应的第一视频帧集合。5.根据权利要求1所述的方法，所述对所述音频进行语音活动检测，确定发生语音活动的时间片段，得到至少一个第二时间片段，包括：对所述音频进行语音活动检测，得到至少一个第三时间片段；对所述第三时间片段进行声纹识别，确定一个或多个声纹各自对应的至少一个第一时间片段。6.根据权利要求1所述的方法，所述计算所述第一时间片段和所述第二时间片段的时间差，包括：针对任...

【专利技术属性】
技术研发人员：王为，文博龙，闫影，李娜，陈海涛，徐雪萍，李海，刘俊晖，谢丹铭，
申请(专利权)人：北京爱奇艺科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人