一种中间帧生成方法、装置、设备及介质制造方法及图纸

技术编号：36812671 阅读：23 留言：0更新日期：2023-03-09 00:54

本公开涉及一种中间帧生成方法、装置、设备及介质，尤其涉及计算机视觉与图像处理技术领域；其中，该方法包括：基于输入的语音信息，确定待生成中间帧的时间信息，并根据时间信息获取与待生成中间帧关联的待处理视频帧，其中，输入的语音信息用于驱动虚拟数字人进行动作；将待处理视频帧输入至光流估计网络模型中，得到对应的光流估计结果和融合图；基于光流估计结果和融合图，生成对应的中间帧。本公开实施例通过上述过程能够生成中间帧，通过中间帧有利于确保虚拟数字人在状态转换过程中自然过渡，使得虚拟数字人能在语音驱动下连贯地完成相应动作。地完成相应动作。地完成相应动作。

全部详细技术资料下载

【技术实现步骤摘要】
一种中间帧生成方法、装置、设备及介质

[0001]本公开涉及计算机视觉与图像处理
，尤其涉及一种中间帧生成方法、装置、设备及介质。

技术介绍

[0002]在虚拟数字人开发过程中，虚拟数字人动作库主要是结合业务场景需要，定制标准化的动作范式，比如打招呼、伸手指示或者点头等。在虚拟数字人项目中由于需要通过语音与虚拟数字人进行实时交互，使得虚拟数字人在交互过程中完成从标准状态下切换到相应动作的状态下。在状态转换过程中为了保证自然过渡，需要使用中间帧来辅助虚拟数字人动作片段的拼接，因此，中间帧的生成尤为重要。

技术实现思路

[0003]为了解决上述技术或者至少部分地解决上述技术问题，本公开提供了一种中间帧生成方法、装置、设备及介质，通过生成的中间帧有利于确保虚拟数字人在状态转换过程中自然过渡，使得虚拟数字人能在语音驱动下连贯地完成相应动作。
[0004]为了实现上述目的，本公开实施例提供的技术方案如下：
[0005]第一方面，本公开提供了一种中间帧生成方法，该方法包括：
[0006]基于...

【技术保护点】

【技术特征摘要】
1.一种中间帧生成方法，其特征在于，所述方法包括：基于输入的语音信息，确定待生成中间帧的时间信息，并根据所述时间信息获取与所述待生成中间帧关联的待处理视频帧，其中，所述输入的语音信息用于驱动虚拟数字人进行动作；将所述待处理视频帧输入至光流估计网络模型中，得到对应的光流估计结果和融合图；基于所述光流估计结果和所述融合图，生成对应的中间帧。2.根据权利要求1所述的方法，其特征在于，所述根据所述时间信息获取与所述待生成中间帧关联的待处理视频帧，包括：根据所述时间信息从静态库中确定一个视频帧，从动作库中与所述语音信息对应的目标动作视频中确定一个视频帧，得到所述待处理视频帧，其中，所述待处理视频帧中包括第一视频帧和第二视频帧；相应的，所述基于所述光流估计结果和所述融合图，生成对应的中间帧之后，所述方法还包括：将所述中间帧插入所述第一视频帧和所述第二视频帧之间，得到对应的拼接视频。3.根据权利要求1所述的方法，其特征在于，所述光流估计网络模型包括多个计算单元，相邻计算单元之间通过残差网络连接，每个计算单元包括第一扭曲层、第二扭曲层、拼接层、至少一个卷积层以及反卷积层，所述待处理视频帧中包括第一视频帧和第二视频帧；所述第一扭曲层，用于对所述第一视频帧和上一个计算单元的输出结果进行扭曲变换，得到第一变换结果；所述第二扭曲层，用于对所述第二视频帧和所述上一个计算单元的输出结果进行扭曲变换，得到第二变换结果；所述拼接层，用于对所述第一视频帧、所述第二视频帧、所述第一变换结果、所述第二变换结果、所述上一个计算单元的输出结果以及间隔时间，进行拼接，得到第一向量；所述至少一个卷积层，用于对所述第一向量进行特征提取，得到第二向量；所述反卷积层，用于对所述第二向量进行特征还原，得到当前计算单元的输出结果。4.根据权利要求3所述的方法，其特征在于，所述每个计算单元还包括缩小层和放大层，所述缩小层位于所述拼接层和所述至少一个卷积层之间，所述放大层位于所述反卷积层之后；所述缩小层，用于根据缩放因子，对所述第一向量进行缩放；所述放大层，用于根据放大因子，对所述当前计算单元的所述输出结果进行放大。5.根据权利要求3所述的方法，其特征在于，所述基于所述光流估...

【专利技术属性】
技术研发人员：于子亿，付爱国，李绪送，杨善松，
申请(专利权)人：海信视像科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人