System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大模型的多模态数据资产管理方法、系统、设备及介质技术方案_技高网

基于大模型的多模态数据资产管理方法、系统、设备及介质技术方案

技术编号:40541751 阅读:9 留言:0更新日期:2024-03-05 18:57
本发明专利技术公开了基于大模型的多模态数据资产管理方法、系统、设备及介质,属于数据治理技术领域,本发明专利技术要解决的技术问题为如何实现复杂多模态数据场景下数据的有效管控,实现对结构化、非结构化、物联感知、音视频或空间数据的多模态数据的统一智能化管理,采用的技术方案为:构建多模态资产适配器:为适配多模态资产管理,以元模型为基础对数据资产进行抽象,构建资产设计层,资产设计层实现资产模型的定义,进而实现多模态数据资产的扩展,同时通过适配器与多模态资产进行对接实现多模态资产管理;构建资产智能引擎;智能探查;资产质量检测;资产分类、关联;资产检索与推荐;资产价值评估。

【技术实现步骤摘要】

本专利技术涉及数据治理,具体地说是一种基于大模型的多模态数据资产管理方法、系统、设备及介质


技术介绍

1、随着科技的发展,云计算、大数据、人工智能、物联网等新兴技术的出现,为企业数字数字化转型提供了强力的支撑,各行业在信息化建设上不断加大投入,业务逐步从信息化到数字化再到智能化进行转变,在这个过程中积累了大量数据,多模态数据即多种异构模态数据,如:结构化、非结构化、物联感知、音视频或空间数据等,数据的应用更是无处不在。数据已经被定义为新的数字经济的基础,成为一种资产和基础的生产资料,越来越多的企业在推进数据管控体系的建设。在推进过程中,发现对多模态数据的管控存在诸多问题,主要如下:

2、①多模态数据资产化转变的过程智能化程度不足,需要投入大量人力;

3、②使用传统的资产模型无法对多模态数据进行安全、有效管控;

4、③多模态数据加工问题,因存在多种异构模态数据,部分模特数据处理能力不足,无法进行有效利用。


技术实现思路

1、本专利技术的技术任务是提供一种基于大模型的多模态数据资产管理方法、系统、设备及介质,来解决如何实现复杂多模态数据场景下数据的有效管控,实现对结构化、非结构化、物联感知、音视频或空间数据的多模态数据的统一智能化管理的问题。

2、本专利技术的技术任务是按以下方式实现的,一种基于大模型的多模态数据资产管理方法,该方法具体如下:

3、构建多模态资产适配器:为适配多模态资产管理,以元模型为基础对数据资产进行抽象,构建一套灵活的资产设计层,资产设计层实现资产模型的定义,进而实现多模态数据资产的扩展,同时通过适配器与多模态资产进行对接实现多模态资产管理;

4、构建资产智能引擎:采用langchain本地知识库框架加资产模型组成,本地知识库为资产模型提供数据,同时提供知识库访问接口及可视化的知识导入能力;资产模型提供智能化的数据识别及关联能力,同时langchain载入资产模型后提供资产模型服务化接口;

5、智能探查:获取数据源后进行智能探查,智能探查是对数据源中的数据进行识别,探查并查除常规数据量、值域及空值率,还通过调用资产智能引擎中模型服务化后的接口对数据进行识别数据项,并根据数据项加数据值域调用数据智能引擎识别字典信息及质量规则信息;

6、资产质量检测:基于识别结果绑定字典及质量规则,自动生成质量检测任务对资产数据质量进行质量核验,核验完成后生成质量评分;

7、资产分类、关联:对于结构化资产通过数据资产数据项绑定的数据元识别数据项之间的关联关系;对于非结构化资产通过调用资产智能引擎中的spacy模型服务接口进行命名实体识别,调用bert、tf-idf及textrank模型接口进行文本分类和关键词提取,根据提取的命名实体、关键词及分类进行资产关联;

8、资产检索与推荐:将关联后的资产信息进行索引化存储,为用户提供资产检索能力,并根据用户检索习惯调用资产智能引擎进行资产推荐;

9、资产价值评估:结合使用情况及资产质量评分的内容对资产价值进行评估。

10、作为优选,构建多模态资产适配器具体如下:

11、构建资产模型:抽象资产信息,基于元模型对资产信息进行定义,资产模型基本信息包括事权单位、资产来源、获取方式、存储位置、资产名称、资产编号及分级分类信息,利用元模型可扩展的特性,根据数据模态对资产信息进行扩展,如:针对音频类数据,可扩展文件大小、时长等,对于结构化数据可扩展关联数据项信息;

12、多模态数据资产适配器实现资产信息智能采集,用于自动化获取资产相关技术信息,同时根据不同模态的数据调用资产智能引擎相关接口进行资产信息识别。

13、作为优选,构建多模态资产适配器具体如下:

14、搭建本地知识库:本体资产知识库基于全流程使用开源模型实现的langchain框架构建;通过使用fastchat接入vicuna模型、alpaca模型、llama模型、koala模型及rwkv模型,依托于langchain框架支持通过基于fastapi提供的api调用服务或使用基于streamlit的webui进行操作;

15、添加数据到知识库:添加术语、限定词、数据元、标准数据项集、代码标准、质量规则及分类规则的数据治理相关知识到本地知识库;数据元约定了据项集中数据项的名称、类型、代码字典及质量规则,后续智能探查通过识别数据项进行相关自动化处理;数据元、数据项、标准数据项集、代码字典、质量规则关系具体为:根据数据元同义词推导出数据元,数据元引用代码字典、质量规则及分类规则,标准数据项引用限定词和数据元,多个标准数据项组成标准数据项集;其中,待导入的数据进过文本分割、向量化后存储到知识库,具体为:根据资产相关知识加载文件后,再读取文本,再进行文本分割,最后进行文本向量化;

16、模型微调及加载:采用chatglm2-6b模型及m3e-base模型进行知识库和问答场景,通过spacy进行命名实体识别,通过bert、tf-idf及textrank进行文本分类和关键词提取,根据自己的业务需求进行模型微调,微调后将资产模型发布,并加载到知识库中,同时测试模型发布的接口。

17、作为优选,智能探查具体如下:

18、样例数据获取;

19、进行数据量、值域、空置率探查;

20、进行数据识别,根据规则识别样例数据中的身份证号、手机号等数据;

21、根据数据识别结果进行数据元匹配并获取规则信息;

22、元数据采集,采集数据源的元数据信息;

23、进行元数据分词;

24、根据分词结果匹配数据源识别结果并获取规则信息;

25、数据元识别结果合并;获取资产相;

26、根据资产相进行字段信息向量化,获取字段向量;

27、将字段向量在文本向量中进行匹配,获取匹配结果;

28、探查结果合并;

29、将参数与匹配结果添加到prompt,并返回结果。

30、作为优选,质量评分公式具体如下:

31、q=w*wp+z*zp+y*yp+s*sp+yz*yzp;

32、其中,q表示数据质量的分;w、z、y、s及yz依次表示数据完整性、数据准确性、数据有效性、数据时效性及数据一致性得分;wp、zp、yp、sp及yzp依次表示数据完整性、数据准确性、数据有效性、数据时效性及数据一致性的权重,数据完整性、数据准确性、数据有效性、数据时效性及数据一致性的和为1。

33、更优地,资产价值评估公式具体如下:

34、v=(q+s+u)/3*n;

35、其中,q表示数据质量评分;s表示资产服务评分;u表示资产使用率评分;n表示资产数据规模。

36、一种基于大模型的多模态数据资产管理系统,该系统具体如下:

37、多模态资产适配器构建单元,本文档来自技高网...

【技术保护点】

1.一种基于大模型的多模态数据资产管理方法,其特征在于,该方法具体如下:

2.根据权利要求1所述的基于大模型的多模态数据资产管理方法,其特征在于,构建多模态资产适配器具体如下:

3.根据权利要求1所述的基于大模型的多模态数据资产管理方法,其特征在于,构建多模态资产适配器具体如下:

4.根据权利要求1所述的基于大模型的多模态数据资产管理方法,其特征在于,智能探查具体如下:

5.根据权利要求1所述的基于大模型的多模态数据资产管理方法,其特征在于,质量评分公式具体如下:

6.根据权利要求1-5中任一项所述的基于大模型的多模态数据资产管理方法,其特征在于,资产价值评估公式具体如下:

7.一种基于大模型的多模态数据资产管理系统,其特征在于,该系统具体如下:

8.根据权利要求7所述的基于大模型的多模态数据资产管理系统,其特征在于,多模态资产适配器是结合元模型技术,遵循一切资源化、资源服务化的设计理念,通过元模型实现对资产模型的设计,同时实现对接多模态数据的多模态资产模型适配器,实现对多模态资产的统一管理;p>

9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至6中任一项所述的基于大模型的多模态数据资产管理方法。

...

【技术特征摘要】

1.一种基于大模型的多模态数据资产管理方法,其特征在于,该方法具体如下:

2.根据权利要求1所述的基于大模型的多模态数据资产管理方法,其特征在于,构建多模态资产适配器具体如下:

3.根据权利要求1所述的基于大模型的多模态数据资产管理方法,其特征在于,构建多模态资产适配器具体如下:

4.根据权利要求1所述的基于大模型的多模态数据资产管理方法,其特征在于,智能探查具体如下:

5.根据权利要求1所述的基于大模型的多模态数据资产管理方法,其特征在于,质量评分公式具体如下:

6.根据权利要求1-5中任一项所述的基于大模型的多模态数据资产管理方法,其特征在于,资产价值评估公式具...

【专利技术属性】
技术研发人员:路国隋李存冰田浩于家晟
申请(专利权)人:浪潮软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1