System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及视频处理技术,尤其涉及一种知识库构建方法、视频自动化生产方法和软件产品。
技术介绍
1、短视频的自动化生产技术,可以快速地完成视频的剪辑、特效、配音等传统需要大量人力的制作工作,大大提高生产效率同时极大的降低人力投入成本。从ugc跨越到pgc或者aigc一定是未来内容生产的一种全新模式。目前市面上较为常见的短视频自动化内容生产的技术方法有:
2、方法1.基于素材标签的关键词检索匹配。主要通过对素材内容(图片、视频)进行人工或者ai打标的方式完成素材归类、定义。用户使用时通过输入文本内容或者上传文本文档进行文本内容的解析及分析,此处可能涉及到文本的摘要内容提取及关键字提取,通过关键字搜索打标的素材,选择搜索置信度较高的素材进行内容选择。此时文本摘要+素材内容提取完毕,套用视频模板进行内容填充即可完成内容的自动化视频生产。该方法无法进行文本内容生成,只能通过输入的文本或者解析的文档去识别关键字然后匹配素材库,对于有价值的文档如研报、财报等无法形成有效内容沉淀。且对于数据部分无法进行相应场景化感知,生产形式过于单一,关键字匹配的素材准确性往往也不高。
3、方法2.基于数据网关服务的模板内容生产。通过配置视频模板及模板可替换变量进行内容的自动化更新和生产,结合数字人技术和tts语音技术进行相应文本变量播报。如每日个股视频、每日天气预报等等。目前智云的自动化生产主要基于此方法。此方法虽能实现数据内容化,但模板变量需要对接各种数据服务,开发成本极高。且自动化的应用场景只能定制,无法面向用户进行泛场景应用
4、方法3.基于llm大语言模型的ai文本内容生成。用户可以通过简单的提示词指令与ai交流后获得大模型的生成内容。可根据视频脚本返回指定格式数据,并由大模型自行提取其中的关键词,通过标签素材库匹配对应素材。如剪映文字成片,基于llm大语言模型可通过智能写文案(主题、风格、字数)生成文案内容并匹配。ai生成文本最大的风险在与llm大模型的幻觉问题,对于金融、媒体等领域而言文案的事实性、准确性和正确的价值观立场是最为重要的事情。但很多用户容易被大模型产生错误的引导。且这类自动化生成的视频内容和内容排版也较为单一。
技术实现思路
1、本专利技术针对现有技术中的缺点,提供了一种知识库构建方法。
2、为了解决上述技术问题,本专利技术通过下述技术方案得以解决:
3、一种知识库构建方法,包括如下步骤:
4、读取文档并解析,分割文档为若干片段,并对片段进行元素分类得到元素分区片段,元素类型包括标题元素、叙事元素、列表元素和表格元素中的一种或多种;
5、提取元素分区片段中的文本内容为分区文本内容,分区文本内容包括标题文本、叙事文本、列表文本和表格文本中的一种或多种;
6、将文档中提取的图片作为对象存储,获取图片存储路径,生成元数据id,关联元数据id与图片存储路径;采用图文多模态大模型解析图片得到图片解析结果;
7、对分区文本内容做大切片分割以及基于大切片分割的小切片分割,将大切片、小切片以及图片解析结果、元数与图片存储路径转化为向量数据储存在不同索引中,完成向量数据库的构建。
8、优选的,所述将大切片、小切片以及图片解析结果、元数与图片存储路径转化为向量数据储存在不同索引中的方法,还包括:先存储大切片索引得到对应的大切片的向量id,再执行小切片索引的存储,存储小切片索引时向量结构中保存大切片的向量id。
9、优选的,所述采用图文多模态大模型解析图片得到图片解析结果的方法,包括采用llava模型解析图片得到图片解析结果。
10、优选的,所述读取文档并解析的方法,包括:采用unstructured文档解析工具对读取的文档进行解析。
11、优选的,所述分区文本内容和图片与源文档关联。
12、本专利技术提出一种视频自动化生产方法,调用上述知识库构建方法构建的知识库,包括以下内容:
13、接收文本输入,基于输入文本匹配向量数据库,检索获得文字文本、表格文本和语义关联的图片,其中图片从对象存储单元中获取;
14、采用大语言模型基于文字文本输出文本提取内容,采用大预言模型基于表格文本输出数据结构提取内容;
15、将文本提取内容结构化处理得到结构化文本,将数据结构提取内容转化为可视化内容;
16、将结构化文本、可视化内容和图片进行拼接生成视频输出。
17、优选的,文本输入为一句话的文本输入。
18、优选的,所述大语言模型输出的文本提取内容包括文案关键词、文案内容和情绪。
19、优选的,采用大语言模型基于表格文本输出数据结构提取内容的方法,包括:
20、将表格文本转化为结构数据,遍历匹配可视化模板,通过已知的可视化模板数据结构与表格文本转化的结构数据进行字段数量匹配,如无匹配的字段数量的模型,则再次遍历可视化模板数据字段数量小于表格字段的模块,并采用大语言模型进行比对分析提出表格字段中无用的字段返回并匹配可视化模板结果。
21、优选的,所述检索获得文字文本、表格文本和语义关联的图片的方法,包括:
22、对文本进行embeding嵌入转换,对小切片索引进行检索,若匹配到小切片,则通过小切片携带的大切片向量id查询大切片索引的内容,返回大切片数据;
23、大切片数据包括表格文本、图片文本和内容文本中的一种或多种,其中检索到图片文本后,通过关联的图片存储路径召回图片。
24、本专利技术还提出一种软件产品,包括计算机程序,被加载在电子设备中,用于接收文档,计算机程序被处理器调用实现权利要求6-9任一所述的一种视频自动化生产方法。
25、本专利技术的有益效果:对于提出的知识库构建方法,构建一种知识库,充分利用文档资源实现更广泛的,更精准的数据调用;
26、对于前文构建的知识库的基础上,在视频自动化生产方法过程中,实现对用户输入文本的语义内容的充分理解,实通过大模型和去结构化解析多向量检索内容,完成对文本和表格内容的多字段结构化输出,快速完成视频生产。
本文档来自技高网...【技术保护点】
1.一种知识库构建方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的知识库构建方法,其特征在于,所述将大切片、小切片以及图片解析结果、元数与图片存储路径转化为向量数据储存在不同索引中的方法,还包括:先存储大切片索引得到对应的大切片的向量ID,再执行小切片索引的存储,存储小切片索引时向量结构中保存大切片的向量ID。
3.根据权利要求1所述的知识库构建方法,其特征在于,所述采用图文多模态大模型解析图片得到图片解析结果的方法,包括采用LLaVa模型解析图片得到图片解析结果。
4.根据权利要求1所述的知识库构建方法,其特征在于,所述读取文档并解析的方法,包括:采用Unstructured文档解析工具对读取的文档进行解析。
5.根据权利要求1所述的知识库构建方法,其特征在于,所述分区文本内容和图片与源文档关联。
6.一种视频自动化生产方法,其特征在于,调用权利要求1-5任一项所述的知识库构建方法构建的知识库,包括以下内容:
7.根据权利要求6所述的视频自动化生产方法,其特征在于,文本输入为一句话的文本输入。
...【技术特征摘要】
1.一种知识库构建方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的知识库构建方法,其特征在于,所述将大切片、小切片以及图片解析结果、元数与图片存储路径转化为向量数据储存在不同索引中的方法,还包括:先存储大切片索引得到对应的大切片的向量id,再执行小切片索引的存储,存储小切片索引时向量结构中保存大切片的向量id。
3.根据权利要求1所述的知识库构建方法,其特征在于,所述采用图文多模态大模型解析图片得到图片解析结果的方法,包括采用llava模型解析图片得到图片解析结果。
4.根据权利要求1所述的知识库构建方法,其特征在于,所述读取文档并解析的方法,包括:采用unstructured文档解析工具对读取的文档进行解析。
5.根据权利要求1所述的知识库构建方法,其特征在于,所述分区文本内容和图片与源文档关联。
...
【专利技术属性】
技术研发人员:滕思敏,梁双春,张莉莎,
申请(专利权)人:新华智云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。