说话人视频音画处理方法及装置制造方法及图纸

技术编号：41385190 阅读：29 留言：0更新日期：2024-05-20 19:06

本发明专利技术公开一种说话人视频音画处理方法及装置，该方法包括：接收待检测说话人视频；依次对所述待检测说话人视频的各片段提取人脸图像特征和语音特征；将每个片段对应的人脸图像特征和语音特征输入预先构建的音画匹配模型，确定所述说话人视频的音画匹配度；根据所述音画匹配度确定所述待检测说话人视频的音画是否同步。利用本发明专利技术方案，可以有效地实现说话人视频音画不同步的判别。在确定说话人视频的音画不同步的情况下，还可对所述待检测说话人视频进行修复，实现音画同步，保证说话人视频质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，具体涉及一种说话人视频音画处理方法及装置。

技术介绍

1、视频音画不同步是指视频播放过程中主播嘴巴动作和声音不同步，或者画面和声音不同步的现象，常见原因有以下几方面：网络延迟，编码器设置的帧率、采样率等播放平台不匹配，服务器故障等。

2、对于说话人音画不一致的检测，现有技术中大都通过对各视频帧进行嘴部状态识别，根据设定阈值来判断嘴部是否处于张开状态，进而实现检测与音频的对齐程度。这种方法需要进行复杂的嘴部张开状态检测，但不同说话人的嘴部张开状态的差别是比较大的，而且阈值主要靠人工规则设定，基于人工规则的方法往往精度较低，泛化和通用性较差。

技术实现思路

1、本专利技术实施例提供一种说话人视频音画处理方法及装置，以有效地实现说话人视频音画不同步的判别。

2、一方面，本专利技术实施例提供一种说话人视频音画处理方法，所述方法包括：

3、接收待检测说话人视频；

4、依次对所述待检测说话人视频的各片段提取人脸图像特征和语音特征；

5本文档来自技高网...

【技术保护点】

1.一种说话人视频音画处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法包括：通过自监督学习方法构建音画匹配模型。

3.根据权利要求2所述的方法，其特征在于，所述构建音画匹配模型包括：

4.根据权利要求3所述的方法，其特征在于，所述采集大量说话人视频包括：

5.根据权利要求3所述的方法，其特征在于，所述构建损失函数包括：根据正负样本对对应的模型输出构建损失函数。

6.根据权利要求5所述的方法，其特征在于，所述损失函数为：

7.根据权利要求3所述的方法，其特征在于，所述方法还包括：...

【技术特征摘要】

1.一种说话人视频音画处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法包括：通过自监督学习方法构建音画匹配模型。

3.根据权利要求2所述的方法，其特征在于，所述构建音画匹配模型包括：

4.根据权利要求3所述的方法，其特征在于，所述采集大量说话人视频包括：

5.根据权利要求3所述的方法，其特征在于，所述构建损失函数包括：根据正负样本对对应的模型输出构建损失函数。

6.根据权利要求5所述的方法，其特征在于，所述损失函数为：

7.根据权利要求3所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述临界值c满足以下等式：

9.根据权利要求1至8任一项所述的方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述对所述待检测说话人视频进行修复...

【专利技术属性】
技术研发人员：徐清，沈伟林，虞钉钉，王晓梅，蔡华，
申请(专利权)人：华院计算技术上海股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人