视频生成方法、存储介质和装置制造方法及图纸

技术编号:20119890 阅读:35 留言:0更新日期:2019-01-16 12:26
本发明专利技术提供一种视频生成方法、存储介质和装置,该方法包括:步骤11:选定至少一张待分析图片,确定待分析图片的先后次序;步骤13:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行步骤14和步骤15;步骤14:将每张待分析图片的文字信息转换为音频数据;步骤15:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频;步骤17:根据待分析图片的次序,将每张待分析图片的音频数据和子视频合成为所有待分析图片对应的视频。基于本发明专利技术的方法,可以基于单张或多张图片生成其对应的视频,提升用户体验,降低视频制作成本。

Video Generation Method, Storage Media and Device

The invention provides a video generation method, a storage medium and a device, which comprises steps 11: selecting at least one picture to be analyzed to determine the sequence of the pictures to be analyzed; step 13: identifying and extracting the text information in each picture to be analyzed, or inputting the text information of each picture to be analyzed, and performing steps 14 and 15, respectively; The text information of the picture is converted into audio data; Step 15: Input the picture to be analyzed and its text information into the generative countermeasure network to generate the corresponding sub-video of each picture to be analyzed; Step 17: According to the order of the pictures to be analyzed, the audio data and sub-video of each picture to be analyzed are synthesized into the corresponding video of all the pictures to be analyzed. Based on the method of the invention, the corresponding video can be generated based on single or multiple pictures, the user experience can be improved, and the cost of video production can be reduced.

【技术实现步骤摘要】
视频生成方法、存储介质和装置
本专利技术涉及计算机领域,特别涉及一种视频生成方法、存储介质和装置。
技术介绍
相比文字、语音和图片,视频是一种更好的呈现方式,但视频制作依赖人力,成本较高。现存的大量的静态图片,例如绘本,都需要更佳的视频呈现方法。如何将静态图片自动生成视频,是目前急需解决的技术问题。
技术实现思路
有鉴于此,本专利技术提供一种视频生成方法、存储介质和装置,以解决如何基于图片自动生成视频的问题。本专利技术提供一种视频生成方法,该方法包括:步骤11:选定至少一张待分析图片,确定待分析图片的先后次序;步骤13:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行步骤14和步骤15;步骤14:将每张待分析图片的文字信息转换为音频数据;步骤15:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频;步骤17:根据待分析图片的次序,将每张待分析图片的音频数据和子视频合成为所有待分析图片对应的视频。本专利技术还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行本专利技术上述的视频生成方法中的步骤。本专利技术还提供一种视频生成装置,包括处理器和上述的非瞬时计算机可读存储介质。本专利技术使用对抗式生成网络将静态图片生成连续性的视频,本专利技术设计生成式对抗网络的输入不仅包括图片,还包括该图片相关的文字信息,使生成式对抗网络可以更好地输出该图片相关的子视频,进而确保本专利技术的视频生成方法可以产生真正的视频。附图说明图1为本专利技术视频生成方法的流程图;图2为本专利技术视频生成装置的结构图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。如图1所示,本专利技术的视频生成方法包括:步骤11:选定至少一张待分析图片,确定待分析图片的先后次序。其中,确定待分析图片的先后次序可以自动依据图片的生成时间确定,如果图片是绘本,还可以自动依据页码确定先后次序,或用户人工确定图片的先后次序。步骤13:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行步骤14和步骤15。识别文字信息可以利用光学字符识别技术,例如利用现有的CNN+BLSTM+CTC组合模型识别并提取每张待分析图片中的文字信息,其中CNN为卷积神经网络,BLSTM为双向长短时记忆循环神经网络,CTC为时序分类算法。绘本的图片上一般都会附带相关的文字信息。当图片上没有附带文字信息时,例如照片,则用户可以输入相关的文字作为该图片的文字信息。步骤14:将每张待分析图片的文字信息转换为音频数据。步骤15:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频。现有的生成式对抗网络的输入一般为图片,本专利技术设计生成式对抗网络的输入不仅包括图片,还包括该图片相关的文字信息,使生成式对抗网络可以更好地输出该图片相关的子视频。如果待分析图片包含多张图片,可以每次将一张图片及其文字信息输入生成式对抗网络,生成式对抗网络输出该图片相关的子视频,或者一次将所有图片及其文字信息输入生成式对抗网络,生成式对抗网络输出每张图片相关的子视频。一次将所有图片输入生成式对抗网络,有利于生成式对抗网络更好地理解所有图片综合表达的内容。本专利技术生成式对抗网络训练方法包括:步骤201:样本数据准备,从互联网下载视频,将同一场景的视频分割成独立的n个子部分,每个子部分的时长为3-4秒,为每个子部分添加的描述文字;步骤202:取每个子视频的第一帧备用,通过2D卷积获取该第一帧的特征图向量;将子视频的描述文字转换成向量;并和图像特征向量融合,作为生成式对抗网络的生成器的输入;步骤203:由生成器预测第一帧后续的数十帧,产生3~4秒的短视频(标准动画的帧率为24fps);步骤204:生成器产生的短视频作为生成式对抗网络判别器的输入,判别器通过比较子视频(真视频)与短视频(假视频)的偏差来校对生成式对抗网络内的参数。步骤17:根据待分析图片的次序,将每张待分析图片的音频数据和子视频合成为所有待分析图片对应的视频。可选地,在步骤14和步骤15之后,以及步骤17之前还包括:步骤16:比较每张待分析图片的音频数据的时长与其子视频的时长是否相同,如果不同,通过调整待分析图片的子视频的时长和/或调整其音频数据的时长使两者的时长相同。当每张待分析图片的音频数据的时长与其子视频的时长不同时,可使用ffmpeg调节子视频的播放速度以调整视频时长,或调节音频的比特率来调节音频的时长。考虑到调节比特率会影响音频的播放效果,因此一般采用调节视频时长来匹配音频时长。在图1中,步骤14的一种实现方式为:步骤141:通过语音合成TTS(TextToSpeech)技术将每张待分析图片的文字信息转换为相应的音频数据。在图1中,步骤14的另一种实现方式为:步骤141-1:将每张待分析图片及其文字信息输入CNN+LSTM模型,或将每张待分析图片及其文字信息的关键字输入CNN+LSTM模型,输出每张待分析图片的文字增强描述;步骤141-2:通过语音合成TTS技术将每张待分析图片的文字增强描述转换为相应的音频数据。上述CNN+LSTM模型中CNN用于特征提取可采用现有模型。其中LSTM的训练方法如下:步骤301:将样本图片输入已经训练好的开源物体检测模型(SSD,YOLO等),开源物体检测模型输出样本图片的多标签属性表;根据使用场景不同,比如针对动画绘本,可以采集对应的数据集,通过迁移学习微调网络,使得识别效果更出色。步骤302:识别样本图片所包含的文字信息,并对其进行分词后,匹配上述多标签属性表,如果多标签属性表中的任一标签出现在文字信息中,则增加该标签在多标签属性表中的属性值;比如:文字信息中包含了“鸟”,则将属性表中的“鸟”对应的属性(或称为概率)从0修改为1.0;步骤303:将多标签属性表输入长短期记忆网络LSTM,LSTM输出该标签属性表的文字增强描述;步骤304:通过比较文字增强描述和样本图片对应的样本描述之间的差异来训练LSTM。进一步地,步骤17还包括:将每张图片的文字增强描述以字幕的形式添加到所有待分析图片对应的视频中。用户在观看合成视频的时候,可以选择是否显示字幕。本专利技术的方法可用于儿童绘本,基于绘本图片,将绘本故事转换为视频,用于儿童辅助教育。本专利技术的方法还可以用于动画行业,基于少量的画面例如动漫,生成动画,减少动画制作的人力成本。本专利技术的方法还用于手机相册的“故事模块”,由用户自己选择,或者根据用户拍摄的时间、地点以及场景的关联性,手动或自动从用户的相册中选取多张图片,然后基于选择的图片生成真实的视频,让“故事模块”可以真正的讲故事,更具趣味性。本专利技术的方法还可用于制作社交网站或新闻行业的短视频素材,基于拍摄的原始照片素材,快速生成一段新闻视频。本专利技术旨在提供一种新颖的视频生成方式,通过现有的单张或多张静态图片生成其对应的视频,有效提高了信息呈现的可读性,提升用户体验,并减少人力制作视频的成本。本专利技术还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行本专利技术上述的视频生成方法中的步骤。本专利技术还提供一种视频生成装置,本文档来自技高网...

【技术保护点】
1.一种视频生成方法,其特征在于,所述方法包括:步骤11:选定至少一张待分析图片,确定所述待分析图片的先后次序;步骤13:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行步骤14和步骤15;步骤14:将每张待分析图片的文字信息转换为音频数据;步骤15:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频;步骤17:根据所述待分析图片的次序,将每张待分析图片的音频数据和子视频合成为所有待分析图片对应的视频。

【技术特征摘要】
1.一种视频生成方法,其特征在于,所述方法包括:步骤11:选定至少一张待分析图片,确定所述待分析图片的先后次序;步骤13:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行步骤14和步骤15;步骤14:将每张待分析图片的文字信息转换为音频数据;步骤15:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频;步骤17:根据所述待分析图片的次序,将每张待分析图片的音频数据和子视频合成为所有待分析图片对应的视频。2.根据权利要求1所述的方法,其特征在于,在所述步骤14和步骤15之后,以及所述步骤17之前还包括:步骤16:比较每张待分析图片的音频数据的时长与其子视频的时长是否相同,如果不同,通过调整所述待分析图片的子视频的时长和/或调整其音频数据的时长使两者的时长相同。3.根据权利要求1所述的方法,其特征在于,步骤13中,所述识别并提取每张待分析图片中的文字信息包括:基于CNN+BLSTM+CTC模型识别并提取每张待分析...

【专利技术属性】
技术研发人员:谢攀赖长铃何健柳瑞超杨建军杜玉强
申请(专利权)人:三星电子中国研发中心三星电子株式会社
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1