【技术实现步骤摘要】
本专利技术涉及人工智能领域,具体涉及一种说话人视频音画处理方法及装置。
技术介绍
1、视频音画不同步是指视频播放过程中主播嘴巴动作和声音不同步,或者画面和声音不同步的现象,常见原因有以下几方面:网络延迟,编码器设置的帧率、采样率等播放平台不匹配,服务器故障等。
2、对于说话人音画不一致的检测,现有技术中大都通过对各视频帧进行嘴部状态识别,根据设定阈值来判断嘴部是否处于张开状态,进而实现检测与音频的对齐程度。这种方法需要进行复杂的嘴部张开状态检测,但不同说话人的嘴部张开状态的差别是比较大的,而且阈值主要靠人工规则设定,基于人工规则的方法往往精度较低,泛化和通用性较差。
技术实现思路
1、本专利技术实施例提供一种说话人视频音画处理方法及装置,以有效地实现说话人视频音画不同步的判别。
2、一方面,本专利技术实施例提供一种说话人视频音画处理方法,所述方法包括:
3、接收待检测说话人视频;
4、依次对所述待检测说话人视频的各片段提取人脸图像特征和语音特
5本文档来自技高网...
【技术保护点】
1.一种说话人视频音画处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法包括:通过自监督学习方法构建音画匹配模型。
3.根据权利要求2所述的方法,其特征在于,所述构建音画匹配模型包括:
4.根据权利要求3所述的方法,其特征在于,所述采集大量说话人视频包括:
5.根据权利要求3所述的方法,其特征在于,所述构建损失函数包括:根据正负样本对对应的模型输出构建损失函数。
6.根据权利要求5所述的方法,其特征在于,所述损失函数为:
7.根据权利要求3所述的方法,其特征在
...【技术特征摘要】
1.一种说话人视频音画处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法包括:通过自监督学习方法构建音画匹配模型。
3.根据权利要求2所述的方法,其特征在于,所述构建音画匹配模型包括:
4.根据权利要求3所述的方法,其特征在于,所述采集大量说话人视频包括:
5.根据权利要求3所述的方法,其特征在于,所述构建损失函数包括:根据正负样本对对应的模型输出构建损失函数。
6.根据权利要求5所述的方法,其特征在于,所述损失函数为:
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:
8.根据权利要求7所述的方法,其特征在于,所述临界值c满足以下等式:
9.根据权利要求1至8任一项所述的方法,其特征在于,所述方法还包括:
10.根据权利要求9所述的方法,其特征在于,所述对所述待检测说话人视频进行修复...
【专利技术属性】
技术研发人员:徐清,沈伟林,虞钉钉,王晓梅,蔡华,
申请(专利权)人:华院计算技术上海股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。