一种主播肢体动作节奏的自适应调整方法技术

技术编号：34946686 阅读：32 留言：0更新日期：2022-09-17 12:22

本发明专利技术涉及一种主播肢体动作节奏的自适应调整方法，采用全新音视频处理策略，首先获得目标音频中的各个音频片段，接着依次针对各音频片段，基于视频帧之间的知觉差异值的考虑，在目标视频中顺序查找音频片段所对应的起始视频帧，并据此完成音频片段与目标视频上对应位置的同步，最终实现目标音频与目标视频之间的同步；设计方法执行中，能够准确查找到各音频片段与目标视频间的对应关系，并完成彼此间的同步，有效提高了音视频合成处理的效率。有效提高了音视频合成处理的效率。有效提高了音视频合成处理的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种主播肢体动作节奏的自适应调整方法

[0001]本专利技术涉及一种主播肢体动作节奏的自适应调整方法，属于音视频合成

技术介绍

[0002]目前有很多基于AI算法，应用给定的声音改变视频中人物的嘴形，实现嘴形和声音的同步，但是现有技术的这类算法只能改变视频中人物的口型，不能改变人物的肢体动作(含头部运动)，这会导致所呈现的视频人物表现不自然，例如人物说话的时候，没有肢体动作；或者人物不说话的时候，有很多肢体动作。
[0003]现有技术的有些方法例如论文《Motion Representations for Articulated Animation》，可以改变视频中人物的肢体动作，但是这些方法只能把视频A中人物的动作，映射到视频B中，不能自动根据说话人的声音改变肢体动作，而且这类方法合成的视频普遍有“虚影”等问题，视觉效果不能接受。

技术实现思路

[0004]本专利技术所要解决的技术问题是提供一种主播肢体动作节奏的自适应调整方法，采用全新设计策略，能够高效、准确的实现音频与视频的同步，提高音视频处理效率。
[0005]本专利技术为了解决上述技术问题采用以下技术方案：本专利技术设计了一种主播肢体动作节奏的自适应调整方法，用于实现目标音频与目标视频之间的同步，且目标视频的时长大于或等于目标音频的时长，包括如下步骤：
[0006]步骤A.应用VAD技术，针对目标音频进行处理，获得目标音频中各个静音片段的起始时刻与结束时刻，进而获得目标音频中顺序各个音频片段，然后进入步骤B；...

【技术保护点】

【技术特征摘要】
1.一种主播肢体动作节奏的自适应调整方法，用于实现目标音频与目标视频之间的同步，且目标视频的时长大于或等于目标音频的时长，其特征在于，包括如下步骤：步骤A.应用VAD技术，针对目标音频进行处理，获得目标音频中各个静音片段的起始时刻与结束时刻，进而获得目标音频中顺序各个音频片段，然后进入步骤B；步骤B.针对目标视频中的第1视频帧至第I
‑
n视频帧，按知觉差异方式，获得各视频帧分别所对应的PD值，然后初始化目标视频为待匹配视频，进入步骤C；其中，I表示目标视频的长度，n为预设大于1的整数值；步骤C.针对目标音频中未同步的各音频片段，选择顺序第一个音频片段，作为待匹配音频片段，并进入步骤D；步骤D.根据待匹配音频片段时长的预设倍数的时长，应用最小化cost的方法，确定待匹配音频片段对应待匹配视频中的起始视频帧，然后进入步骤E；步骤E.针对待匹配视频中待匹配音频片段所对应起始视频帧起的待匹配音频片段时长的视频段，按待匹配音频片段时长所对应的预设倍数，执行相应的补帧或删除帧操作，更新待匹配视频，然后进入步骤F；步骤F.基于步骤D中待匹配音频片段时长的预设倍数的时长，截取目标音频中包含待匹配音频片段的音频段，并按待匹配音频片段对应待匹配视频中的起始视频帧，将所截取的音频段同步至待匹配视频中，以及获得所截取音频段末尾对应待匹配视频中的视频帧，作为待匹配视频的断点视频帧，然后进入步骤G；步骤G.判断目标音频的各个音频片段中是否存在未同步的音频片段，是则将待匹配视频中由断点视频帧起至末尾的视频段，更新为待匹配视频，并返回步骤C；否则完成目标音频与目标视频之间的同步。2.根据权利要求1所述一种主播肢体动作节奏的自适应调整方法，其特征在于：所述步骤B中，分别针对目标视频中第1视频帧至第I
‑
n视频帧中的各视频帧，获得第i视频帧与第i+n视频帧之间的知觉差异值，构成第i视频帧所对应的PD值，i＝{1、
…
、I
‑
n}，进而目标视频中第1视频帧至第I
‑
n视频帧的各视频帧分别所对应的PD值。3.根据权利要求1所述一种主播肢体动作节奏的自适应调整方法，其特征在于：所述步骤D执行如下步骤D1至步骤D5，确...

【专利技术属性】
技术研发人员：包英泽，
申请(专利权)人：北京跳悦智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人