一种基于视频结构化数据的智能图文转视频的方法及系统技术方案

技术编号:35460530 阅读:23 留言:0更新日期:2022-11-03 12:27
本发明专利技术公开了一种基于视频结构化数据的智能图文转视频的方法及系统,方法包括对大规模视频数据集中的视频文件进行转码、镜头切分和内容识别,并对不准确的识别结果进行人工审核修改后以结构化形式存储在数据库中,生成素材库;基于文本类型对用户提交的文本进行处理,对处理结果进行段落拆分、关键词提取和命名实体识别处理;并基于处理结果生成旁白声音和对应的字幕文件;将关键词提取和命名实体识别处理结果与素材库中的素材进行匹配,获取最佳匹配素材;将最佳匹配素材与旁白声音和字幕文件进行合并。优点是:解决视频生产过程素材整理及制作流程中繁琐耗时的问题,提高视频生产效率。产效率。产效率。

【技术实现步骤摘要】
一种基于视频结构化数据的智能图文转视频的方法及系统


[0001]本专利技术涉及计算机视频合成及人工智能内容生成
,尤其涉及一种基于视频结构化数据的智能图文转视频的方法及系统。

技术介绍

[0002]对于文案创作者来说,视频制作属于专业领域,入门门槛较高,且传统视频制作需要通过文案脚本撰写、素材整理采编建立素材库,然后再通过粗剪、精剪、音轨合成、校对等流程完成视频制作,整个过程耗时且繁琐,无法满足当前视频信息爆炸的时代需求。

技术实现思路

[0003]本专利技术的目的在于提供一种基于视频结构化数据的智能图文转视频的方法及系统,从而解决现有技术中存在的前述问题。
[0004]为了实现上述目的,本专利技术采用的技术方案如下:
[0005]一种基于视频结构化数据的智能图文转视频的方法,包括如下步骤,
[0006]S1、建立素材库:
[0007]对大规模视频数据集中的视频文件进行转码、镜头切分和内容识别,并对不准确的识别结果进行人工审核修改,将准确的识别结果以及审核修改后的识别结果以结构化形式存储在数据库中,生成素材库;
[0008]S2、图文分析:
[0009]基于文本类型对用户提交的文本进行处理,对处理结果进行段落拆分、关键词提取和命名实体识别处理;并基于处理结果生成旁白声音和对应的字幕文件;
[0010]S3、素材匹配:
[0011]基于段落的关键词提取和命名实体识别处理结果与素材库中的素材进行匹配,获取最佳匹配素材;
[0012]S4、视频合成:
[0013]使用视频合成算法将最佳匹配素材与旁白声音和对应的字幕文件进行合并,生成完整的视频文件。
[0014]优选的,步骤S1具体包括如下内容,
[0015]S11、将视频文件码流转换为预设格式码流,实现大规模视频数据集中所有视频文件的转码;
[0016]S12、判断转码完成后的视频文件是否需要进行镜头切分,若是,则将转码完成后的视频文件切分为一个一个的短视频片段后,进入步骤S13;否则,直接进入步骤S13;
[0017]当视频文件相邻两帧图片的余弦相似度大于或等于相似度阈值时,则需要切分,否则无需切分;
[0018]S13、对短视频片段中出现的镜头、人物、场景、事件、物体和字幕进行识别;
[0019]S14、判断识别结果的准确性,并对不准确的识别结果进行人工复核修改,添加包
括时间、地点、人物、事件在内的主观描述信息;
[0020]S15、将准确的识别结果以及人工复核后的识别结果以json格式结构化存储于数据库中,生成素材库。
[0021]优选的,步骤S13具体为,通过深度学习的卷积神经网络,构建包括镜头识别、人脸识别、OCR识别和语音识别在内的多个深度学习模型;利用这些深度学习模型提取出短视频片段中的镜头信息、人物信息、场景信息、事件信息、物体信息和字幕信息。
[0022]优选的,步骤S14具体包括如下内容,
[0023]S141、截取短视频片段中的关键帧,获取人物、场景和物品的图片,并将人物图片、场景图片和物品图片分别与人脸图库、场景图库和物品图库中的样本图片进行相似度计算,判断相似度得分是否大于或等于得分阈值,若是,则表示识别准确;否则表示识别不准确;
[0024]S142、对识别不准确的识别信息进行人工复核,并对其进行人工修改,添加一些计算机无法识别的主观描述信息。
[0025]优选的,步骤S2具体包括如下内容,
[0026]S21、判断用户提交的文本是纯文本或网页链接,若是纯文本,则直接进入步骤S22;若是网页链接,则对其进行网页图文内容提取,并将提取内容格式化去掉html标签和无意义字符后进入步骤S22;
[0027]S22、对文本进行拆分段落,并对拆分段落后的文本进行关键词提取和命名实体提取;
[0028]S23、使用语音合成技术,将步骤S21处理后的文本转化为旁白声音,并生成对应的字幕文件。
[0029]优选的,步骤S22具体包括如下内容,
[0030]S221、使用TextRank算法提取文本的关键句,依据关键句对文本进行段落切分
[0031]S222、对切分后的段落进行关键词提取和命名实体提取,关键词包括时间、场景、人物、事件,命名实体包括人名、地名、机构名和动词;对于字数不满足字数阈值的段落或没有提取关键词和/或命名实体的段落进行合并。
[0032]优选的,步骤S23具体为,通过语音合成技术合成声音,对步骤S21处理后的文本进行语法分析,提取主语、谓语、宾语,并转换为语音波形,再采用基于PSOLA方法的时域波形拼接技术合成为完整音频,进而转化为旁白声音,并生成对应的字幕文件。
[0033]优选的,步骤S3具体为,将素材库中的素材与步骤S22的处理结果进行文本语义匹配,对包括时间、地点、人物、事件在内的四个关键要素分别进行文本语义相似度计算,并根据相似度计算结果进行降序排序,取排名第一的素材即为最佳匹配素材。
[0034]优选的,对关键要素进行文本语义相似度计算具体包括如下内容,
[0035]S31、对两个文本分别进行向量表征,把文本转化为向量矩阵;
[0036]S32、对两个文本各自单独处理,通过深层的神经网络进行编码,分别得到两个文本的合成表征;
[0037]所述合成表征包括:token embeddings阶段,针对词进行处理,将各个词转换成固定维度的向量;segment embedding阶段,针对句子进行处理,提取句子的表征;position embedding阶段,针对相同词出现在不同位置进行处理;将上述三个阶段的表征按元素相
加,得到合成表征;
[0038]S33、对两个文本的合成表征进行余弦相似度计算,获取相似度计算结果。
[0039]本专利技术的目的还在于提供一种基于视频结构化数据的智能图文转视频的系统,系统用于实现上述任一所述的方法,所述系统包括,
[0040]素材库模块:对大规模视频数据集中的视频文件进行转码、镜头切分和内容识别,并对不准确的识别结果进行人工审核修改,将准确的识别结果以及审核修改后的识别结果以结构化形式存储在数据库中,生成素材库;
[0041]图文分析模块:基于文本类型对用户提交的文本进行处理,对处理结果进行段落拆分、关键词提取和命名实体识别处理;并基于处理结果生成旁白声音和对应的字幕文件;
[0042]素材匹配模块:基于段落的关键词提取和命名实体识别处理结果与素材库中的素材进行匹配,获取最佳匹配素材;
[0043]视频合成模块:使用视频合成算法将最佳匹配素材与旁白声音和对应的字幕文件进行合并,生成完整的视频文件。
[0044]本专利技术的有益效果是:1、以人工智能的方式对视频内容进行结构化分析,基于分析后数据通过算法讲图文内容转化为视频输出,解决视频生产过程素材整理及制作流程中繁琐耗时的问题,提高视频生产本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频结构化数据的智能图文转视频的方法,其特征在于:包括如下步骤,S1、建立素材库:对大规模视频数据集中的视频文件进行转码、镜头切分和内容识别,并对不准确的识别结果进行人工审核修改,将准确的识别结果以及审核修改后的识别结果以结构化形式存储在数据库中,生成素材库;S2、图文分析:基于文本类型对用户提交的文本进行处理,对处理结果进行段落拆分、关键词提取和命名实体识别处理;并基于处理结果生成旁白声音和对应的字幕文件;S3、素材匹配:基于段落的关键词提取和命名实体识别处理结果与素材库中的素材进行匹配,获取最佳匹配素材;S4、视频合成:使用视频合成算法将最佳匹配素材与旁白声音和对应的字幕文件进行合并,生成完整的视频文件。2.根据权利要求1所述的基于视频结构化数据的智能图文转视频的方法,其特征在于:步骤S1具体包括如下内容,S11、将视频文件码流转换为预设格式码流,实现大规模视频数据集中所有视频文件的转码;S12、判断转码完成后的视频文件是否需要进行镜头切分,若是,则将转码完成后的视频文件切分为一个一个的短视频片段后,进入步骤S13;否则,直接进入步骤S13;当视频文件相邻两帧图片的余弦相似度大于或等于相似度阈值时,则需要切分,否则无需切分;S13、对短视频片段中出现的镜头、人物、场景、事件、物体和字幕进行识别;S14、判断识别结果的准确性,并对不准确的识别结果进行人工复核修改,添加包括时间、地点、人物、事件在内的主观描述信息;S15、将准确的识别结果以及人工复核后的识别结果以json格式结构化存储于数据库中,生成素材库。3.根据权利要求2所述的基于视频结构化数据的智能图文转视频的方法,其特征在于:步骤S13具体为,通过深度学习的卷积神经网络,构建包括镜头识别、人脸识别、OCR识别和语音识别在内的多个深度学习模型;利用这些深度学习模型提取出短视频片段中的镜头信息、人物信息、场景信息、事件信息、物体信息和字幕信息。4.根据权利要求2所述的基于视频结构化数据的智能图文转视频的方法,其特征在于:步骤S14具体包括如下内容,S141、截取短视频片段中的关键帧,获取人物、场景和物品的图片,并将人物图片、场景图片和物品图片分别与人脸图库、场景图库和物品图库中的样本图片进行相似度计算,判断相似度得分是否大于或等于得分阈值,若是,则表示识别准确;否则表示识别不准确;S142、对识别不准确的识别信息进行人工复核,并对其进行人工修改,添加一些计算机无法识别的主观描述信息。5.根据权利要求1所述的基于视频结构化数据的智能图文转视频的方法,其特征在于:
步骤S2具体包括如下内容,S21、判断用户提交的文本是纯文本或网页链接,若是纯文本,则直接进入步骤S22;若是网页链接,则对其进行网页图文内容提取,并将提取内容格式化去掉html标签和无意义字符后进入步骤S22;S22、对文本进行拆分段落,并对拆分段落后...

【专利技术属性】
技术研发人员:陈鹏张华伟
申请(专利权)人:新壹北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1