一种基于视频结构化数据的智能图文转视频的方法及系统技术方案

技术编号：35460530 阅读：23 留言：0更新日期：2022-11-03 12:27

本发明专利技术公开了一种基于视频结构化数据的智能图文转视频的方法及系统，方法包括对大规模视频数据集中的视频文件进行转码、镜头切分和内容识别，并对不准确的识别结果进行人工审核修改后以结构化形式存储在数据库中，生成素材库；基于文本类型对用户提交的文本进行处理，对处理结果进行段落拆分、关键词提取和命名实体识别处理；并基于处理结果生成旁白声音和对应的字幕文件；将关键词提取和命名实体识别处理结果与素材库中的素材进行匹配，获取最佳匹配素材；将最佳匹配素材与旁白声音和字幕文件进行合并。优点是：解决视频生产过程素材整理及制作流程中繁琐耗时的问题，提高视频生产效率。产效率。产效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视频结构化数据的智能图文转视频的方法及系统

[0001]本专利技术涉及计算机视频合成及人工智能内容生成
，尤其涉及一种基于视频结构化数据的智能图文转视频的方法及系统。

技术介绍

[0002]对于文案创作者来说，视频制作属于专业领域，入门门槛较高，且传统视频制作需要通过文案脚本撰写、素材整理采编建立素材库，然后再通过粗剪、精剪、音轨合成、校对等流程完成视频制作，整个过程耗时且繁琐，无法满足当前视频信息爆炸的时代需求。

技术实现思路

[0003]本专利技术的目的在于提供一种基于视频结构化数据的智能图文转视频的方法及系统，从而解决现有技术中存在的前述问题。
[0004]为了实现上述目的，本专利技术采用的技术方案如下：
[0005]一种基于视频结构化数据的智能图文转视频的方法，包括如下步骤，
[0006]S1、建立素材库：
[0007]对大规模视频数据集中的视频文件进行转码、镜头切分和内容识别，并对不准确的识别结果进行人工审核修改，将准确的识别结果以及审核修改后的识别结果以结构化形式存储在数据库中，生成素材库；
[0008]S2、图文分析：
[0009]基于文本类型对用户提交的文本进行处理，对处理结果进行段落拆分、关键词提取和命名实体识别处理；并基于处理结果生成旁白声音和对应的字幕文件；
[0010]S3、素材匹配：
[0011]基于段落的关键词提取和命名实体识别处理结果与素材库中的素材进行匹配，获取最佳匹配素材；
[001...

【技术保护点】

【技术特征摘要】
1.一种基于视频结构化数据的智能图文转视频的方法，其特征在于：包括如下步骤，S1、建立素材库：对大规模视频数据集中的视频文件进行转码、镜头切分和内容识别，并对不准确的识别结果进行人工审核修改，将准确的识别结果以及审核修改后的识别结果以结构化形式存储在数据库中，生成素材库；S2、图文分析：基于文本类型对用户提交的文本进行处理，对处理结果进行段落拆分、关键词提取和命名实体识别处理；并基于处理结果生成旁白声音和对应的字幕文件；S3、素材匹配：基于段落的关键词提取和命名实体识别处理结果与素材库中的素材进行匹配，获取最佳匹配素材；S4、视频合成：使用视频合成算法将最佳匹配素材与旁白声音和对应的字幕文件进行合并，生成完整的视频文件。2.根据权利要求1所述的基于视频结构化数据的智能图文转视频的方法，其特征在于：步骤S1具体包括如下内容，S11、将视频文件码流转换为预设格式码流，实现大规模视频数据集中所有视频文件的转码；S12、判断转码完成后的视频文件是否需要进行镜头切分，若是，则将转码完成后的视频文件切分为一个一个的短视频片段后，进入步骤S13；否则，直接进入步骤S13；当视频文件相邻两帧图片的余弦相似度大于或等于相似度阈值时，则需要切分，否则无需切分；S13、对短视频片段中出现的镜头、人物、场景、事件、物体和字幕进行识别；S14、判断识别结果的准确性，并对不准确的识别结果进行人工复核修改，添加包括时间、地点、人物、事件在内的主观描述信息；S15、将准确的识别结果以及人工复核后的识别结果以json格式结构化存储于数据库中，生成素材库。3.根据权利要求2所述的基于视频结构化数据的智能图文转视频的方法，其特征在于：步骤S13具体为，通过深度学习的卷积神经网络，构建包括镜头识别、人脸识别、OCR识别和语音识别在内的多个深度学习模型；利用这些深度学习模型提取出短视频片段中的镜头信息、人物信息、场景信息、事件信息、物体信息和字幕信息。4.根据权利要求2所述的基于视频结构化数据的智能图文转视频的方法，其特征在于：步骤S14具体包括如下内容，S141、截取短视频片段中的关键帧，获取人物、场景和物品的图片，并将人物图片、场景图片和物品图片分别与人脸图库、场景图库和物品图库中的样本图片进行相似度计算，判断相似度得分是否大于或等于得分阈值，若是，则表示识别准确；否则表示识别不准确；S142、对识别不准确的识别信息进行人工复核，并对其进行人工修改，添加一些计算机无法识别的主观描述信息。5.根据权利要求1所述的基于视频结构化数据的智能图文转视频的方法，其特征在于：
步骤S2具体包括如下内容，S21、判断用户提交的文本是纯文本或网页链接，若是纯文本，则直接进入步骤S22；若是网页链接，则对其进行网页图文内容提取，并将提取内容格式化去掉html标签和无意义字符后进入步骤S22；S22、对文本进行拆分段落，并对拆分段落后...

【专利技术属性】
技术研发人员：陈鹏，张华伟，
申请(专利权)人：新壹北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人