System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大模型的复杂数据处理系统及方法技术方案_技高网

一种基于大模型的复杂数据处理系统及方法技术方案

技术编号:41004493 阅读:2 留言:0更新日期:2024-04-18 21:41
本发明专利技术公开了一种基于大模型的复杂数据处理系统及方法,涉及数据处理技术领域,系统包括数据收集模块、数据分类模块、数据转换模块、大语言模型模块、数据关联模块、扩展搜索模块;所述数据收集模块用于获取复杂数据;该基于大模型的复杂数据处理系统及方法,通过设置数据收集模块、数据分类模块、数据转换模块、大语言模型模块、数据关联模块、扩展搜索模块,可将有文字描述的图片与对应的文字描述关联,使得关联文字的图片随文字的分类而分类,没有文字描述的图片通过分析其与分类后的图片的相似度进行分类,且语音信息和视频信息可分别转换成文字信息和图片信息后再进行分类,提高了文字、语音、图片、视频信息之间的关联性。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体涉及一种基于大模型的复杂数据处理系统及方法


技术介绍

1、大模型即大语言模型(large language models,llm),是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。在进行数据处理时可利用大语言模型先对收集的数据进行处理,减少数据处理的工作量。

2、公开号为cn116483872b的中国专利,公开了一种复杂数据处理方法、装置及电子设备,包括:获取复杂业务数据;基于业务关联规则对业务数据库表中的所述业务表进行筛选,得到业务表数据;将所述复杂业务数据、所述业务表数据进行合并连接,得到合并业务表数据;对所述合并业务表数据进行筛选,对筛选后的合并业务表数据进行分组汇总,得到汇总业务表数据;对所述汇总业务表数据进行过滤,得到业务结果表单。本专利技术通过对复杂数据进行层层处理,实现数据展示的实时性,支持数据的分组汇总,支持多达十张表单的汇总统计,功能更强大,数据处理结果较为清晰明了。

3、在实际进行数据处理时,需要处理的数据可能包含多种类型,而现有技术在进行数据处理时通常仅能对文字形式的数据进行处理分析,对于包含多种类型格式的数据,不能很好的找到相互之间的关联性。


技术实现思路

1、本专利技术的目的是提供一种基于大模型的复杂数据处理系统及方法,以解决现有技术中的上述不足之处。

2、为了实现上述目的,本专利技术提供如下技术方案:一种基于大模型的复杂数据处理系统,包括数据收集模块、数据分类模块、数据转换模块、大语言模型模块、数据关联模块、扩展搜索模块;

3、所述数据收集模块用于获取复杂数据;

4、所述数据分类模块用于识别获取的复杂数据的类型,并按类型对所述复杂数据进行分类,所述分类包括文字数据、语音数据、图片数据、视频数据;

5、所述数据转换模块用于将所述视频数据转换成图片数据;对于视频数据首先根据视频帧数将视频数据转换成视频帧数数量的图片,形成图片数据;

6、所述数据转换模块还用于将语音数据转换成文字数据,可通过语音识别算法将语音数据的识别转换成对应的文字数据;

7、所述大语言模型模块内储存有大语言模型,并基于历史文字数据和历史目标数据训练所述大语言模型,所述历史目标数据为从历史文字数据中根据需求筛选得出的文字数据;所述大语言模块用于处理输入的文字数据,得到对应的目标数据,并基于目标数据的含义将目标数据分类后可视化显示;所述目标数据继承原文字数据与图片数据的关联关系;

8、所述数据关联模块用于将文字数据与对应的图片数据关联;对于视频数据转换成的图片数据,图片数据对应的视频数据也与对应文字数据关联;若关联的文字数据由语音数据转换而来,则图片数据或视频数据也与文字数据转换前的语音数据关联;可通过语义分析算法分析文字数据,判断文字数据是否有对应的图片和/或视频,若有则将对应的图片和视频与之关联;还可通过人工操作的方式将图片和视频与对应的文字数据关联;

9、所述扩展搜索模块用于对图片数据进行图像分析,根据图片数据的相似度,将未关联文字数据的图片数据分类到最相似的已关联文字数据的图片数据的类别中。

10、进一步的,所述将文字数据与对应的图片数据关联,包括:

11、对于由视频数据转换成的图片数据,还将视频数据与图片数据关联的文字数据关联。

12、进一步的,所述将文字数据与对应的图片数据关联,还包括:

13、对于由语音数据转换成的文字数据,还将语音数据与文字数据关联的图片数据关联。

14、进一步的,所述将文字数据与对应的图片数据关联,包括:

15、通过语义分析算法分析文字数据,判断所述文字数据是否存在对应的图片数据,若存在,则将文字数据与对应的图片数据关联;

16、若对应的图片数据由视频数据转换成,则分析视频数据转换的所有图片数据相互之间的相似度,根据所述图片数据之间的相似度高低,将所述图片数据分为多个图片组,选择图片数据数量最多的图片组内图片数据作与文字数据关联,防止视频数据转换的图片数据中的无关的图片数据与文字数据关联。

17、进一步的,所述将未关联文字数据的图片数据分类到最相似的已关联文字数据的图片数据的类别中,当未关联文字数据的图片数据为由视频数据转换成的图片数据时,综合视频数据转换成的所有图片数据划分视频数据的类别,具体包括:

18、分析得到所述所有图片数据与各类别已关联文字数据的图片数据的相似度:

19、筛选出所述所有图片数据中的每张图片,与各类别已关联文字数据的图片数据的最高相似度;

20、得到对应的最高相似度的图片最多的类别,将视频数据与该类别关联。

21、一种基于大模型的复杂数据处理方法,包括以下步骤:

22、s1、导入大语言模型;

23、s2、收集复杂数据和目标数据,并将复杂数据按数据类别进行分类;

24、s3、提取出复杂数据的文字数据,基于提取的文字数据和目标数据训练大语言模型,使得输入文字数据可得到对应的目标数据;

25、s4、将复杂数据中的语音数据转换成文字数据,视频数据转换成图片数据;

26、s5、根据语义分析算法分析出包含对应图片数据或视频数据的文字数据,将文字数据与对应的图片数据或由视频数据转换成的图片数据关联;

27、s6、输入复杂数据,执行一次s4-s5;

28、s7、提取出文字数据,输入到大语言模型,得到对应的目标数据,并基于目标数据的含义将目标数据分类后可视化显示;

29、s8、基于图片相似度分析,将未关联文字数据的图片数据分类到与之相似的图片数据所在类别,并同步更新到对应目标数据的类别中可视化显示。

30、与现有技术相比,本专利技术提供的一种基于大模型的复杂数据处理系统及方法,通过设置数据收集模块、数据分类模块、数据转换模块、大语言模型模块、数据关联模块、扩展搜索模块,可将有文字描述的图片与对应的文字描述关联,使得关联文字的图片随文字的分类而分类,没有文字描述的图片通过分析其与分类后的图片的相似度进行分类,且语音信息和视频信息可分别转换成文字信息和图片信息后再进行分类,提高了文字、语音、图片、视频信息之间的关联性,提高了数据处理分类的效果。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的复杂数据处理系统,其特征在于,包括:数据收集模块、数据分类模块、数据转换模块、大语言模型模块、数据关联模块、扩展搜索模块;

2.根据权利要求1所述的一种基于大模型的复杂数据处理系统,其特征在于:所述将文字数据与对应的图片数据关联,包括:

3.根据权利要求1或2所述的一种基于大模型的复杂数据处理系统,其特征在于:所述将文字数据与对应的图片数据关联,还包括:

4.根据权利要求1所述的一种基于大模型的复杂数据处理系统,其特征在于:所述将文字数据与对应的图片数据关联,包括:

5.根据权利要求2所述的一种基于大模型的复杂数据处理系统,其特征在于:所述将未关联文字数据的图片数据分类到最相似的已关联文字数据的图片数据的类别中,包括:

6.一种基于大模型的复杂数据处理方法,应用于权利要求1-5任一项所述的一种基于大模型的复杂数据处理系统,其特征在于:包括以下步骤:

【技术特征摘要】

1.一种基于大模型的复杂数据处理系统,其特征在于,包括:数据收集模块、数据分类模块、数据转换模块、大语言模型模块、数据关联模块、扩展搜索模块;

2.根据权利要求1所述的一种基于大模型的复杂数据处理系统,其特征在于:所述将文字数据与对应的图片数据关联,包括:

3.根据权利要求1或2所述的一种基于大模型的复杂数据处理系统,其特征在于:所述将文字数据与对应的图片数据关联,还包括:

4.根...

【专利技术属性】
技术研发人员:张鹏王莲项洋朱建宇邹林娟黄波张振体吴敏李超马强
申请(专利权)人:北京滴普科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1