一种元模型自动采集分类管理的方法、装置及存储介质制造方法及图纸

技术编号:40588855 阅读:13 留言:0更新日期:2024-03-12 21:49
本发明专利技术属于信息技术领域,提供了一种元模型自动采集分类管理的方法、装置及存储介质。主旨在于解决以现有元模型无法进行自动采集和分类的问题。主要方案包括通过数据采集、元模型字段生成、元模型生成、元模型分类和模型入库模块等步骤,实现了一种元模型自动采集分类管理的方法。该方法能够提高数据处理的效率和准确性,解决数据源信息复杂、多样化和不精准的问题,为后续分类工作提供基础数据支持。同时,该方案具有可扩展性和可维护性,能够适应不同场景和需求。

【技术实现步骤摘要】

本专利技术属于信息,提供了一种元模型自动采集分类管理的方法、装置及存储介质


技术介绍

1、技术背景(当前工作依赖的nlp算法、cv算法)

2、元模型,定义元数据的属性、关系的模型叫做元模型,每类元数据都属于一个元模型。比如数据库表中,表模型里定义了表的属性有“注释”、“是否系统表”、“是否临时表”、“所有者”等;定义了表由索引、外键、表分区、字段等组成;定义了表受表输出组件、存储过程、表等的影响。这些内容的集合都可以称为元模型。有了元模型,就能根据元模型来采集元数据信息。要实现企业元数据管理,需要定义一个符合存储企业数据现状的元数据模型,且这个模型有不同粒度和层次的元模型,有了层次和粒度的划分,未来元数据进行批量管理后就可以灵活的从不同维度进行元数据分析,如企业的数据地图、数据血统都是基于此实现的。

3、
技术介绍
(已有工作的解决策略)

4、当前解决这个问题的通用方案为uml建模,这也是自元模型产生以来一直被使用的技术。此外,创建元模型的时候也可以参考cwm(公共仓库元模型),cwm定义了一套完整的元模型体系结构,用于数据仓库构建和应用的元数据建模。目前,在大语言模型发展的条件下,元模型的数据特征已经能够被理解,因此可以大语言模型进行自动采集和分类。从技术上来说,大语言模型的生成式方案可以实现采集功能,此外分类的结果可以同时增加到模型输出部分,从而在不进行模型改动的情况下仅修改数据,完成采集和分类。

5、本提案要解决的技术问题(当前工作的主要创新点)

6、当前工作的主要解决了现有元模型无法进行自动采集和分类的情况。元模型本质上是一种用文本描述的schema,因此具备自然语言的特征。采集过程需要根据这些特征使用自然语言处理算法生成一般特征,然后根据这个特征对模型进行分类。


技术实现思路

1、本专利技术的目的在于解决现有元模型无法进行自动采集和分类的问题。

2、为了实现上述目的本专利技术采用以下技术方案:

3、本专利技术提供了一种元模型自动采集分类管理的方法,包括以下步骤:

4、步骤1:首先总结出需要自动采集并分类的数据源,通过数据源获得到数据,在准备了多条数据之后,标注出需要的内容,然后打上分类标签,注意这里标注后数据不按数据库的表头顺序进行存放;

5、步骤2:元模型采集生成方案,在获得一条数据之后,使用“降采样特征提取方法”进行采集生成元模型;

6、所述降采样特征提取方法包括以下步骤:

7、将文本中某段话、某些虚词进行随机删除,使得文本长度在规定的范围以内,从而得到一个带有大部分类别特征的文本,利用这个文本进行文本分类,从而总结出当前内容最有可能被包含的字段,将这些字段组成一个完整的体系之后,即得到元模型;

8、所述进行文本分类具体的为使用一个大语言模型a进行实现,在构建输入的阶段,同时构建单一数据分类与多类别分类两种不同的样本,同时进行输入,公式表述如下:

9、yi=llm(xi)    (公式1)

10、[yk,yk+j,yk+v]=llm([xk,xk+j,xk+v])   (公式2)

11、上述公式中,所有的y代表元模型中某个字段的类别,x代表某个字段的原始或删减内容,i,k代表某个字段的位置索引,j,v代表从1开始到最大字段数的整数,用于偏移索引,上述公式1和公式2表示当前的模型能够同时对单一样本和复合样本进行元模型字段采集工作,生成元模型字段;

12、步骤3:在所有元模型字段生成之后,使用另一个大语言模型b对其进行分类,元模型表示为[y1,y2,...,yn],其中yn表示数据的某个特征,其结果为z,则公式表述如下:

13、z=type_llm([y1,y2,...,yn])

14、步骤4:由两个大语言模型标记好的模型存入搭建的数据平台,即完成了元模型分类管理。

15、上述技术方案中,步骤1具体包括以下步骤:

16、步骤1.1:明确需求和配置数据源连接

17、明确需要自动采集并分类的数据,这些数据来源于各类业务系统的数据库,配置与这些数据库的连接,实现采集数据;

18、步骤1.2:采集元模型信息和数据清洗

19、通过数据源连接,采集各类业务系统数据库的元模型信息,包括表名、字段名、类型以及辅助样例数据,然后对采集到的元模型信息进行清洗,确保信息的质量和准确性;

20、步骤1.3:特征提取和分类标签映射

21、从清洗后的元模型信息、中提取出所需的特征,这些特征将用于后续的分类,同时,将这些特征与行业的数据分类体系进行分类标签映射;

22、步骤1.4:数据标注和打上行业分类标签

23、在分类后的数据中,标注出需要的内容,这里标注后的数据不按数据库的表头顺序进行存放,然后,通过智能化手段,给采集的业务系统元模型信息等相关信息打上行业的分类标签。

24、步骤1.5:存储数据

25、最后,将标注后并打上分类标签的数据存储到数据库中,以便后续的使用和分析。

26、上述技术方案中,标签标记在数据库的表上,或者字段上,每一行数据,或者字段值,有多个维度标签。

27、本专利技术中还提供了一种元模型自动采集分类管理的装置,包括以下步骤:

28、数据采集模块:首先总结出需要自动采集并分类的数据源,通过数据源获得到数据,在准备了多条数据之后,标注出需要的内容,然后打上分类标签,注意这里标注后数据不按数据库的表头顺序进行存放;

29、元模型字段生成模块:元模型采集生成方案,在获得一条数据之后,使用“降采样特征提取方法”进行采集生成元模型;

30、所述降采样特征提取方法包括以下步骤:

31、将文本中某段话、某些虚词进行随机删除,使得文本长度在规定的范围以内,从而得到一个带有大部分类别特征的文本,利用这个文本进行文本分类,从而总结出当前内容最有可能被包含的字段,将这些字段组成一个完整的体系之后,即得到元模型;

32、所述进行文本分类具体的为使用一个大语言模型a进行实现,在构建输入的阶段,同时构建单一数据分类与多类别分类两种不同的样本,同时进行输入,公式表述如下:

33、yi=llm(xi)    (公式1)

34、[yk,yk+j,yk+v]=llm([xk,xk+j,xk+v])     (公式2)

35、上述公式中,所有的y代表元模型中某个字段的类别,x代表某个字段的原始或删减内容,i,k代表某个字段的位置索引,j,v代表从1开始到最大字段数的整数,用于偏移索引,上述公式1和公式2表示当前的模型能够同时对单一样本和复合样本进行元模型字段采集工作,生成元模型字段;

36、元模型生成模块:在所有元模型字段生成之后,使用另一个大语言模型b对其进行分类,元模型表示为[y1,y2,本文档来自技高网...

【技术保护点】

1.一种元模型自动采集分类管理的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种元模型自动采集分类管理的方法,其特征在于,步骤1具体包括以下步骤:

3.根据权利要求2所述的一种元模型自动采集分类管理的方法,其特征在于,标签标记在数据库的表上,或者字段上,每一行数据,或者字段值,有多个维度标签。

4.一种元模型自动采集分类管理的装置,其特征在于,包括以下步骤:

5.根据权利要求4所述的一种元模型自动采集分类管理的装置,其特征在于,数据采集模块的实现具体包括以下步骤:

6.根据权利要求5所述的一种元模型自动采集分类管理的装置,其特征在于,标签标记在数据库的表上,或者字段上,每一行数据,或者字段值,有多个维度标签。

7.一种存储介质,其特征在于,处理器执行存储介质中的程序时实现如权利要求1-3任一所述的一种元模型自动采集分类管理的方法。

【技术特征摘要】

1.一种元模型自动采集分类管理的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种元模型自动采集分类管理的方法,其特征在于,步骤1具体包括以下步骤:

3.根据权利要求2所述的一种元模型自动采集分类管理的方法,其特征在于,标签标记在数据库的表上,或者字段上,每一行数据,或者字段值,有多个维度标签。

4.一种元模型自动采集分类管理的装置,其特征在于,包括以下步骤:

【专利技术属性】
技术研发人员:刘译璟苏萌江之源程佳姜楠寇蕾蕾巨旭东
申请(专利权)人:北京百分点科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1