一种动画视频生成方法及相关装置制造方法及图纸

技术编号:33207299 阅读:53 留言:0更新日期:2022-04-24 00:56
本申请实施例公开了一种动画视频生成方法及相关装置,所述方法包括:获取目标文档的字段,并基于所述字段生成语音音频;基于所述语音音频的时长选择与之匹配的预先储存的视频模块;将所述语音音频合并到所述视频模板中,其中,所述语音音频的起始时间点与所述视频模板的起始时间点对齐,所述语音音频的结束时间点与所述视频模板的结束时间点对齐;解码合并后的视频模板得到多个视频帧,所述视频帧具有可插入图像的图像框;基于所述字段从数据库中挑选图像,将所述图像插入到至少部分视频帧中,以形成动画视频。所述动画视频可展示与所述字段相关的图像,方便观众理解目标文档的内容。内容。内容。

【技术实现步骤摘要】
一种动画视频生成方法及相关装置


[0001]本专利技术涉及数据转换
,特别是涉及一种动画视频生成方法及相关装置。

技术介绍

[0002]在产品展示讲解、会议等场景下,演讲人事先将报告内容或者演讲内容编辑在文档中,通过展示文档的内容以供场下观众理解,场下观众在阅读文档时容易走神,而达不到让观众理解文档内容的效果,同时,演讲人逐页放映并且演讲人需要在放映过程中讲话,十分繁琐,耗费时间和精力。

技术实现思路

[0003]本专利技术实施例所要解决的技术问题在于,提供一种动画视频生成方法及相关装置,将目标文档自动生成视频,方便观众理解目标文档的内容。
[0004]第一方面,本申请实施例提供一种动画视频生成方法,其包括:
[0005]获取目标文档的字段,并基于所述字段生成语音音频;
[0006]基于所述语音音频的时长选择与之匹配的预先储存的视频模块;
[0007]将所述语音音频合并到所述视频模板中,其中,所述语音音频的起始时间点与所述视频模板的起始时间点对齐,所述语音音频的结束时间点与所述视频模板的结束时间点对齐;
[0008]解码合并后的视频模板得到多个视频帧,所述视频帧具有可插入图像的图像框;
[0009]基于所述字段从数据库中挑选图像,将所述图像插入到至少部分视频帧中,以形成动画视频。
[0010]可选的,所述字段包括多个文字,所述基于所述字段生成语音音频,包括:
[0011]解析所述字段,以确定所述字段的内容意义;
[0012]基于所述内容意义确定所述字段中各个文字的读音;
[0013]基于各个文字的读音生成所述语音音频。
[0014]可选的,所述基于各个文字的读音生成所述语音音频,包括:
[0015]基于所述内容意义将所述字段拆分为多个子字段,每个子字段至少对应一个视频帧;
[0016]基于所述多个子字段分别生成多个子语音音频,所述多个子语音音频组成所述语音音频,每个所述子语音音频至少对应一个视频帧。
[0017]可选的,所述基于所述字段从数据库中挑选图像,包括:
[0018]基于所述字段提取至少一个关键词;
[0019]基于所述关键词从数据库中查询得到与所述关键词相符的图像。
[0020]可选的,所述将所述图像插入到至少部分视频帧中,包括:
[0021]识别所述图像的内容含义,以确定与所述图像的内容含义相关联的子字段;
[0022]基于所述子字段与所述视频帧的对应关系,确定所述图像与视频帧的对应关系;
[0023]将所述图像插入到与之对应的视频帧的图像框中。
[0024]可选的,所述视频帧具有字幕框,所述方法还包括:
[0025]基于所述子字段与所述视频帧的对应关系,将各个所述子字段插入到与之对应的视频帧的字幕框中。
[0026]可选的,所述字幕框具有字符数量限制,所述将各个所述子字段插入至与之对应的视频帧的字幕框中,包括:
[0027]获取各个所述子字段的字符数量;
[0028]当存在有子字段的字符数量大于预设数量时,将所述子字段拆分为至少两个分子字段,并确定所述分子字段所对应的视频帧,其中,所述分子字段的字符数量小于等于预设数量;
[0029]将所述分子字段插入至与所述分子字段对应的视频帧的字幕框中。
[0030]第二方面,本申请实施例提供一种动画视频生成装置,其包括:
[0031]语音生成模块,用于获取目标文档的字段,并基于所述字段生成语音音频;
[0032]选择模块,用于基于所述语音音频的时长选择与之匹配的预先储存的视频模块;
[0033]合并模块,用于将所述语音音频合并到所述视频模板中,其中,所述语音音频的起始时间点与所述视频模板的起始时间点对齐,所述语音音频的结束时间点与所述视频模板的结束时间点对齐;
[0034]解码模块,用于解码合并后的视频模板得到多个视频帧,所述视频帧具有可插入图像的图像框;
[0035]插入模块,用于基于所述字段从数据库中挑选图像,将所述图像插入到至少部分视频帧中,以形成动画视频。
[0036]第三方面,本申请实施例提供一种电子设备,所述电子设备包括储存器和处理器,所述储存器用于储存计算机指令,所述处理器用于调用所述计算机指令以执行如上所述的方法。
[0037]第四方面,本申请实施例提供一种计算机储存介质,所述计算机储存介质存储有计算机指令,所述计算机指令被处理器执行时实现如上所述的方法。
[0038]通过本申请实施例,基于目标文档的字段生成语音音频,将语音音频与视频模板合并,并基于目标文档的字段从数据库中挑选图像,将挑选出的图像插入到视频模板的视频帧中,以形成动画视频,所述动画视频可展示与所述字段相关的图像,方便观众理解目标文档的内容。
附图说明
[0039]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1是本申请实施例提供的动画视频生成方法的流程示意图;
[0041]图2是本申请实施例提供的动画视频生成装置的结构示意图;
[0042]图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0043]下面结合本申请实施例中的附图对本申请的实施例进行描述。
[0044]本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选的还包括没有列出的步骤或单元,或可选的还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0045]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0046]在产品展示讲解、会议等场景下,演讲人事先将报告内容或者演讲内容编辑在文档中,通过展示文档的内容以供场下观众理解,场下观众在阅读文档时容易走神,而达不到让观众理解文档内容的效果,同时,演讲人逐页放映并且演讲人需要在放映过程中讲话,十分繁琐,耗费时间和精力。
[0047]请参见图1,本申请实施例公开一种动画视频生成方法,所述方法包括但不限于S1

S5。
[0048]S1,获取目标文档的字段,并基于所述字段生成语音音频。
[0049]所述目标文档具有文字内容,所述目标文档的格式可以是图像、ppt、pdf、word等格式。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动画视频生成方法,其特征在于,包括:获取目标文档的字段,并基于所述字段生成语音音频;基于所述语音音频的时长选择与之匹配的预先储存的视频模块;将所述语音音频合并到所述视频模板中,其中,所述语音音频的起始时间点与所述视频模板的起始时间点对齐,所述语音音频的结束时间点与所述视频模板的结束时间点对齐;解码合并后的视频模板得到多个视频帧,所述视频帧具有可插入图像的图像框;基于所述字段从数据库中挑选图像,将所述图像插入到至少部分视频帧中,以形成动画视频。2.如权利要求1所述的动画视频生成方法,其特征在于,所述字段包括多个文字,所述基于所述字段生成语音音频,包括:解析所述字段,以确定所述字段的内容意义;基于所述内容意义确定所述字段中各个文字的读音;基于各个文字的读音生成所述语音音频。3.如权利要求2所述的动画视频生成方法,其特征在于,所述基于各个文字的读音生成所述语音音频,包括:基于所述内容意义将所述字段拆分为多个子字段,每个子字段至少对应一个视频帧;基于所述多个子字段分别生成多个子语音音频,所述多个子语音音频组成所述语音音频,每个所述子语音音频至少对应一个视频帧。4.如权利要求1或2所述的动画视频生成方法,其特征在于,所述基于所述字段从数据库中挑选图像,包括:基于所述字段提取至少一个关键词;基于所述关键词从数据库中查询得到与所述关键词相符的图像。5.如权利要求3所述的动画视频生成方法,其特征在于,所述将所述图像插入到至少部分视频帧中,包括:识别所述图像的内容含义,以确定与所述图像的内容含义相关联的子字段;基于所述子字段与所述视频帧的对应关系,确定所述图像与视频帧的对应关系;将所述图像插入到与之对应的视频帧的图像框中。6.如权利要求3所述的...

【专利技术属性】
技术研发人员:涂必超
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1