基于视频分解处理的交互方法、装置、设备及存储介质制造方法及图纸

技术编号：39292354 阅读：9 留言：0更新日期：2023-11-07 11:00

本发明专利技术公开了一种基于视频分解处理的交互方法、装置、设备及存储介质，涉及图像通信技术领域，用以解决不能向用户提供分解动作视频的问题，其中所述方法包括：获取基于目标视频生成的目标对象的动作序列数据；基于滑动窗口从动作序列数据中确定目标帧，基于目标帧中的目标对象骨骼关键点的三维坐标进行动作相似性计算，按照动作相似性将所述动作序列数据分解为多个动作组；以及基于所述动作序列数据驱动虚拟数字人生成相应的虚拟数字人动作视频片段。利用本发明专利技术公开的实施例能够将教学视频中的动作进行分组，并按照动作组分解出相应的视频片段，能够有效地帮助学习者提高学习效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
基于视频分解处理的交互方法、装置、设备及存储介质

[0001]本专利技术涉及图像通信
，尤其涉及一种基于视频分解处理的交互方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网技术的发展，人们通过网络学习各种各样的知识变得越来越便利，并且，随着基于各类不同平台的应用（APP）的兴起以及视频技术的发展，通过视频传授或学习知识成为越来越普遍的一种教学方式。例如，内容提供用户录制各种教学视频上传到某些平台，利用平台资源推送给学习用户，学习用户可以通过观看教学视频学习相关知识。所述教学视频内容例如为面向学生的各个学科的教学，或者面向普通公众的厨艺、园艺、舞蹈、书法、针织、乐器演奏等等。
[0003]目前在各种平台上发行的视频主要由内容提供用户制作，视频质量严重依赖于内容提供用户的制作技术水平。其中，对于一类需要向学习者提供动作讲解的教学内容，例如针织技术的针法、舞蹈动作、书法学习当中的运笔、乐器的弹奏指法等等，通常都依赖内容提供用户对这些内容的录制技巧。以舞蹈为例，舞蹈教学视频中通常首先提供舞蹈演示者的正面跳舞教学演示，而后再一边演示动作，一边讲解。有些舞蹈教学视频中，为了方便学习者能够观看到舞蹈演示者正面之外的身体部位的动作，通常会辅助镜子，在正面视角演示舞蹈动作的同时也能够从背面视角演示舞蹈动作，从而帮助学习者正确地掌握动作要领。在另外一些舞蹈教学视频中，还会包括舞蹈演示者对舞蹈动作的分组演示和讲解。同理，对于其他内容的教学视频，也有类似的内容，如小提琴演奏时的指法、位置等等。
[0004]...

【技术保护点】

【技术特征摘要】
1.一种基于视频分解处理的交互方法，其特征在于，应用于服务端，所述方法包括：获取基于目标视频生成的动作序列数据，其中，所述动作序列数据包括按视频帧顺序组成的动作数据，每个视频帧的动作数据由所述目标视频中的目标对象骨骼关键点的三维坐标构成；基于目标视频类型确定对所述动作序列数据进行分组时使用的滑动窗口的帧数；基于滑动窗口从所述动作序列数据中确定目标帧，基于目标帧中的目标对象骨骼关键点的三维坐标进行动作相似性计算，按照动作相似性将所述动作序列数据分解为多个动作组；以及基于客户端对目标视频中指定动作组的请求，将对应被请求的动作组的动作序列数据发送给所述客户端，由所述客户端基于所述动作序列数据驱动虚拟数字人生成相应的虚拟数字人动作视频片段。2.根据权利要求1所述的基于视频分解处理的交互方法，其特征在于，所述基于目标视频生成的动作序列数据为多个，每个动作序列数据包括对应目标视频中一个特定视角时的目标对象骨骼关键点的三维坐标；以多个动作序列数据中的任意一个作为目标动作序列数据，在将所述目标动作序列数据分解为多个动作组后，基于每个动作组的分组信息将剩余动作序列数据分解为相同的多个动作组，其中，每个动作组的分组信息包括动作组id、时间起点、时间终点、起点帧id和终点帧id中的一者或多者，每个动作组对应不同特定视角的多个动作序列数据；基于客户端对目标视频中指定动作组的请求，将对应被请求的动作组的多个动作序列数据发送给所述客户端。3.根据权利要求1或2所述的基于视频分解处理的交互方法，其特征在于，进一步包括基于每个动作组的一个动作序列数据或不同特定视角的多个动作序列数据驱动虚拟数字人生成一个虚拟数字人动作视频片段或不同特定视角的多个虚拟数字人动作视频片段，对应地，响应于客户端对目标视频中指定动作组的请求，将对应被请求的动作组的一个虚拟数字人动作视频片段或不同特定视角的多个虚拟数字人动作视频片段发送给所述客户端。4.根据权利要求3所述的基于视频分解处理的交互方法，其特征在于，在基于每个动作组的不同特定视角的多个动作序列数据驱动虚拟数字人驱动虚拟数字人生成不同特定视角多个的虚拟数字人动作视频片段之后进一步包括：将对应一个动作组的不同特定视角的多个虚拟数字人动作视频片段合成在一起生成一个包含多个特定视角的虚拟数字人动作的视频片段；基于客户端对目标视频中指定动作组的请求，将对应被请求的动作组的包含多个特定视角的虚拟数字人动作的视频片段发送给所述客户端。5.根据权利要求1所述的基于视频分解处理的交互方法，其特征在于，在基于目标帧中的目标对象骨骼关键点的三维坐标进行动作相似性计算时，从所述动作序列数据中分解出两个相同动作组的步骤包括：采用滑动窗口从所述动作序列数据中未计算的视频帧组中确定第一目标帧组及第二目标帧组；计算第二目标帧组中的第一帧与第一目标帧组中的第一帧中的目标对象对应骨骼关键点的三维坐标的差异，响应于所述对应骨骼关键点的三维坐标的差异小于或等于阈值，
确定所述第二目标帧组中的第一帧与所述第一目标帧组中的所述第一帧为重复帧；响应于所述对应骨骼关键点的三维坐标的差异大于阈值，在当前位置向后移动所述滑动窗口以确定新的第二目标帧组；响应于所述第二目标帧组中的第一帧与第一目标帧组中的所述第一帧为重复帧，计算所述第一目标帧组和所述第二目标帧组中的目标对象对应骨骼关键点的三维坐标的差异，在对应骨骼关键点的三维坐标的差异小于或等于阈值时，确定所述第一目标帧组和所述第二目标帧组为重复片段；以及确定作为重复片段的第一目标帧组和所述第二目标帧组为相同动作组，并记录相应的分组信息，所述分组信息包括动作组id、时间起点、时间终点、起点帧id和终点帧id中的一者或多者。6.根据权利要求1所述的基于视频分解处理的交互方法，其特征在于，在按照动作相似性将所述动作序列数据分解为多个动作组之后进一步包括：为所述目标视频生成分解动作结构信息，并将所述分解动作结构信息填加在所述目标视频的文件信息中，其中，所述分解动作结构信息至少包括动作组及其对应的时间信息；对应地，在客户端播放所述目标视频时显示所述分解动作结构信息。7.根据权利要求3所述的基于视频分解处理的交互方法，其特征在于，在驱动虚拟数字人时，基于目标视频提供用户的授权，按照目标视频中的目标对象生成虚拟数字人形象；或者采用与目标视频中的目标对象同类的虚拟数字人形象。8.根据权利要求1所述的基于视频分解处理的交互方法，其特征在于，进一步包括确定目标视频的步骤：基于预置的视频组，分别将所述视频组中的每一个视频确定为目标视频；或者定时识别增量视频，在所述增量视频的文件信息中没有分组打点信息时，将所述增量视频确定为目标视频；或者在接收到客户端对当前正在播放的视频的分解请求时，将正在播放的所述视频确定为目标视频。9.一种基于视频分解处理的交互方法，其特征在于，应用于客户端，所述方法包括：在目标视频的播放过程中，在所述目标视频的文件信息中包括所述目标视频的分解动作结构信息时，在播放所述目标视频的同时显示所述分解动作结构信息；响应于用户对所述分解动作结构信息中的指定动作组的请求，向服务端发送对所述动作组的请求；以及响应于从服务端接收到对应被请求的动作组的虚拟数字人动作视频片段，播放所述虚拟数字人动作视频片段；响应于从服务端接收到对应被请求的动作组的动作序列数据，基于所述动作序列数据驱动虚拟数字人生成相应的虚拟数字人动作视频片段，并播放所述虚拟数字人动作视频片段；其中，所述动作序列数据包括按视频帧顺序组成的动作数据，每个视频帧的动作数据由所述目标视频中的目标对象骨骼关键点的三维坐标构成。10.根据权利要求9所述的基于视频分解处理的交互方法，其特征在于，响应于从服务端返回的虚拟数字人动作视频片段为不同特定视角的多个虚拟数字人动作视频片段时，将所述多个虚拟数字人动作视频片段合成一个包含多个特定视角的虚拟数字人动作的视频片段并播放；或者，采用多个播放窗口同步播放不同特定视角的多个虚拟数字人动作视频
片段。11.根据权利要求9所述的基于视频分解处理的交互方法，其特征在于，在基于所述动作序列数据驱动虚拟数字人生成相应的虚拟数字人动作视频片段时，基于目标视频...

【专利技术属性】
技术研发人员：潘孟姣，孙健，张远，
申请(专利权)人：北京小糖科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人