视频处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：39151934 阅读：21 留言：0更新日期：2023-10-23 14:59

本申请公开一种视频处理方法、装置、电子设备及可读存储介质，该方法包括：获取第一手语文本、以及所述第一手语文本对应的第一视频序列中每一视频帧的骨骼关键点信息；将所述第一手语文本和每一所述视频帧的骨骼关键点信息输入视频序列速度调节模型，获得所述第一视频序列中每一所述视频帧对应的拆分数量；根据每一所述视频帧对应的拆分数量和所述第一视频序列，获得所述第一手语文本对应的第二视频序列。序列。序列。

全部详细技术资料下载

【技术实现步骤摘要】
视频处理方法、装置、电子设备及可读存储介质

[0001]本申请属于人工智能
，具体涉及一种视频处理方法、装置、电子设备及可读存储介质。

技术介绍

[0002]手语合成是一种将书面语言转化为手语语言的人机交互技术，其可以帮助听障人士与普通人士之间进行沟通，近年来，手语合成在手语生成动画中得到广泛应用。
[0003]相关技术中，手语文本中的手语词汇为手语中的动作单元，例如手语文本为“我想你”，则“我”、“想”、“你”为手语文本中的三个手语词汇。目前，在手语合成过程中，通常是通过动捕技术获得手语文本中的手语词汇分别对应的视频帧，并对手语文本中相邻的手语词汇对应的视频帧进行渲染来获得过渡视频帧，进而得到该手语文本对应的视频序列。然而，这种合成方式会导致合成出来的视频序列的速度严重依赖于通过动捕技术所获得的每个手语词汇的速度，导致整体的韵律节奏单一。

技术实现思路

[0004]本申请实施例的目的是提供一种视频处理方法、装置、电子设备及可读存储介质，能够解决现有的进行手语合成所得到的手语文本对应的视频序列韵...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法，其特征在于，所述方法包括：获取第一手语文本、以及所述第一手语文本对应的第一视频序列中每一视频帧的骨骼关键点信息；将所述第一手语文本和每一所述视频帧的骨骼关键点信息输入视频序列速度调节模型，获得所述第一视频序列中每一所述视频帧对应的拆分数量；根据每一所述视频帧对应的拆分数量和所述第一视频序列，获得所述第一手语文本对应的第二视频序列。2.根据权利要求1所述的方法，其特征在于，所述根据每一所述视频帧对应的拆分数量和所述第一视频序列，获得所述第一手语文本对应的第二视频序列，包括：获取与每一所述视频帧对应的拆分数量匹配的视频帧处理规则；根据所述视频帧处理规则，对所述第一视频序列中对应的所述视频帧进行处理，获得所述第一手语文本对应的第二视频序列。3.根据权利要求2所述的方法，其特征在于，所述视频帧处理规则包括以下其中一项：在所述视频帧对应的拆分数量为第一数量的情况下，丢弃所述视频帧；在所述视频帧对应的拆分数量为第二数量的情况下，保留所述视频帧；在所述视频帧对应的拆分数量为第三数量的情况下，保留所述视频帧，并对所述视频帧和与所述视频帧相邻的下一所述视频帧进行插帧处理获得第一视频帧；在所述视频帧对应的拆分数量为第四数量的情况下，对所述视频帧和与所述视频帧相邻的上一所述视频帧进行插帧处理获得第二视频帧，并保留所述视频帧，以及对所述视频帧和与所述视频帧相邻的下一所述视频帧进行插帧处理获得所述第一视频帧；在所述视频帧对应的拆分数量为第五数量的情况下，对所述视频帧和与所述视频帧相邻的上一所述视频帧进行插帧处理得到所述第二视频帧，并复制所述视频帧得到第三视频帧和第四视频帧，对所述视频帧和与所述视频帧相邻的下一所述视频帧进行插帧处理获得所述第一视频帧。4.根据权利要求1至3中任一项所述的方法，其特征在于，所述将所述第一手语文本和每一所述视频帧的骨骼关键点信息输入视频序列速度调节模型，获得所述第一视频序列中每一所述视频帧对应的拆分数量之前，所述方法还包括：获取手语文本样本中的手语词汇样本、所述手语文本样本对应的视频序列样本中每一视频帧的骨骼关键点信息样本、以及每一所述视频帧对应的拆分数量标签；通过视频帧编码网络对每一所述视频帧的骨骼关键点信息样本进行编码，获得每一所述视频帧的骨骼关键点信息样本的第一编码结果；通过手语文本编码网络对每一所述手语词汇样本进行编码，获得每一所述手语词汇样本的第二编码结果；其中，所述第一编码结果与所述第二编码结果的维度相同；通过第一注意力网络对所述第一编码结果和所述第二编码结果进行编码，获得第三编码结果；将所述第三编码结果和每一所述视频帧对应的拆分数量标签输入预测网络，得到所述视频序列速度调节模型的损失；根据所述损失调整所述视频序列速度调节模型的模型参数，得到所述视频序列速度调节模型。
5.根据权利要求4所述的方法，其特征在于，所述将所述第三编码结果和每一所述视频帧对应的拆分数量标签输入预测网络，得到所述视频序列速度调节模型的损失，包括：将所述第三编码结果和所述每一所述视频帧对应的拆分数量标签输入所述预测网络中的第一全连接层，得到每一所述视频帧对应的拆分数量标签的权重值；将所述第三编码结果、每一所述视频帧对应的拆分数量标签以及每一所述视频帧对应的拆分数量标签的权重值输入所述预测网络中的第二全连接层，得到所述视频序列速度调节模型的损失。6.一种视频处理装置，其特征在于，所述装置包括：第一获取模块，用于获取第一手语文本、以及所...

【专利技术属性】
技术研发人员：何俊远，
申请(专利权)人：维沃移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人