一种模型确定方法及相关装置制造方法及图纸

技术编号:38395566 阅读:10 留言:0更新日期:2023-08-07 11:10
本申请提供了一种模型确定方法及相关装置,该方法包括:获取目标数据库中的多个字段,并确定所多个字段之间的多个关联关系;根据多个字段和多个关联关系,生成目标数据关系网络,目标数据关系网络中包括与多个字段对应的多个节点,以及与多个关联关系对应的多个连接线;基于目标数据关系网络,从多个节点和多个连接线中确定初始关联关系分类模型的训练样本和验证样本;根据训练样本和验证样本对初始关联关系分类模型进行训练和验证,得到关联关系分类模型。通过上述方案,能够用目标数据关系网络对多个字段和多个关联关系进行表示,并能够得到可以自动确定待关联字段之间的关联关系的关联关系分类模型。关系的关联关系分类模型。关系的关联关系分类模型。

【技术实现步骤摘要】
一种模型确定方法及相关装置


[0001]本申请涉及数据处理领域,具体涉及一种模型确定方法及相关装置。

技术介绍

[0002]在数据处理领域中,元数据作为一种描述数据的数据,可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据,具有广泛的应用。
[0003]虽然元数据能够对数据实现管理,但是在实际应用中需要构建和维护元数据之间的关联关系,由于相关技术中该构建和维护过程主要是人工操作,故采用元数据来管理数据存在耗时长、成本高的问题,对此,如何实现元数据关系的自动组织和自动关联重构是目前亟需解决的问题。

技术实现思路

[0004]本申请实施例提供了一种模型确定方法及相关装置,可以将目标数据库中的多个字段和多个关联关系转换为目标数据关系网络,并能够得到可以自动确定待关联字段之间的关联关系的关联关系分类模型。
[0005]有鉴于此,本申请实施例第一方面提供一种模型确定方法,包括:
[0006]获取目标数据库中的多个字段,并确定所述多个字段之间的多个关联关系;
[0007]根据所述多个字段和所述多个关联关系,生成目标数据关系网络,所述目标数据关系网络中包括与所述多个字段对应的多个节点,以及与所述多个关联关系对应的所述多个节点之间的多个连接线;
[0008]基于所述目标数据关系网络,从所述多个节点和所述多个连接线中确定初始关联关系分类模型对应的训练样本和验证样本;
[0009]根据所述训练样本和所述验证样本对所述初始关联关系分类模型进行训练和验证,得到关联关系分类模型,所述关联关系分类模型用于得到待关联字段之间的关联关系。
[0010]本申请实施例第二方面提供一种模型确定装置,包括:
[0011]获取单元,用于获取目标数据库中的多个字段,并确定所述多个字段之间的多个关联关系;
[0012]生成单元,用于根据所述多个字段和所述多个关联关系,生成目标数据关系网络,所述目标数据关系网络中包括与所述多个字段对应的多个节点,以及与所述多个关联关系对应的所述多个节点之间的多个连接线;
[0013]确定单元,用于基于所述目标数据关系网络,从所述多个节点和所述多个连接线中确定初始关联关系分类模型的训练样本和验证样本;
[0014]训练单元,用于根据所述训练样本和所述验证样本对所述初始关联关系分类模型进行训练和验证,得到关联关系分类模型,所述关联关系分类模型用于得到待关联字段之间的关联关系。
[0015]本申请实施例第三方面提供一种电子设备,包括:
[0016]存储器,用于存储可执行指令;
[0017]处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的模型确定方法。
[0018]本申请实施例第四方面提供一种计算机可读介质,存储有可执行指令,用于被处理器执行时,实现本申请实施例提供的模型确定方法。
[0019]由上述技术方案可以看出,首先,获取目标数据库中的多个字段,并确定所多个字段之间的多个关联关系;其次,根据多个字段和多个关联关系,生成目标数据关系网络,目标数据关系网络中包括与多个字段对应的多个节点,以及与多个关联关系对应的多个节点之间的多个连接线,该目标数据关系网络能够对多个字段和多个字段之间的关联关系以图论表示形式进行清楚的展示;然后,基于目标数据关系网络,从多个节点和多个连接线中确定初始关联关系分类模型的训练样本和验证样本;最后,根据训练样本和验证样本对初始关联关系分类模型进行训练和验证,得到关联关系分类模型,关联关系分类模型用于得到待关联字段之间的关联关系。通过上述方案,能够将目标数据库中的多个字段和多个关联关系转换为目标数据关系网络,并能够得到可以自动确定待关联字段之间的关联关系的关联关系分类模型,从而提高数据处理的效率。
附图说明
[0020]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0021]图1为本申请实施例提供的一种模型确定方法的方法流程图;
[0022]图2为本申请实施例提供的一种模型确定方法的训练和应用的方法流程图;
[0023]图3为本申请实施例提供的一种模型确定装置的装置示意图。
具体实施方式
[0024]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0026]虽然元数据能够对数据实现管理,但是在实际应用中需要构建和维护元数据之间的关联关系,由于相关技术中该构建和维护过程主要是人工操作,人工操作存在耗时长、成
本高的问题。
[0027]鉴于此,本申请实施例提供了一种模型确定方法及相关装置,可以将目标数据库中的多个字段和多个关联关系转换为目标数据关系网络,并能够得到可以自动确定待关联字段之间的关联关系的关联关系分类模型。
[0028]下面通过方法实施例来对本申请提供的一种模型确定方法进行说明,如图1所示,图1为本申请实施例提供的一种模型确定方法的方法流程图,该方法包括:
[0029]S101、获取目标数据库中的多个字段,并确定多个字段之间的多个关联关系。
[0030]目标数据库是指待管理的数据库,在实际应用中,目标数据库可以是现有的业务系统数据库。在数据库中,会用字段描述数据库中的某一特征,数据库中表的“列”就可以作为字段,例如,在“通讯录”数据库中,“姓名”、“联系电话”这些都是数据库中表所有行共有的属性,故可以将这些列作为“姓名”字段和“联系电话”字段。
[0031]在本实施例中,可以获取目标数据库中的多个字段,多个字段可以用C
ij
(i=1,2,

,m,j=1,2,

,n)表示,其中,C
ij
表示第i个表中第j个字段,需要说明的是,在获取字段的过程中,需要分析并整理字段的真实的字段含本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型确定方法,其特征在于,所述方法包括:获取目标数据库中的多个字段,并确定所述多个字段之间的多个关联关系;根据所述多个字段和所述多个关联关系,生成目标数据关系网络,所述目标数据关系网络中包括与所述多个字段对应的多个节点,以及与所述多个关联关系对应的所述多个节点之间的多个连接线;基于所述目标数据关系网络,从所述多个节点和所述多个连接线中确定初始关联关系分类模型对应的训练样本和验证样本;根据所述训练样本和所述验证样本对所述初始关联关系分类模型进行训练和验证,得到关联关系分类模型,所述关联关系分类模型用于得到待关联字段之间的关联关系。2.根据权利要求1所述的方法,其特征在于,所述获取目标数据库中的多个字段,包括:根据业务逻辑,从所述目标数据库中抽取多个数据表格;从所述多个数据表格中,获取所述多个字段。3.根据权利要求1所述的方法,其特征在于,所述根据所述多个字段和所述多个关联关系,生成目标数据关系网络,包括:根据所述多个字段和所述多个关联关系,生成初始数据关系网络,所述初始数据关系网络包括与所述多个字段对应的多个初始节点,以及与所述多个关联关系对应的所述多个初始节点之间的多个初始连接线,其中,所述多个字段与所述多个初始节点数量相同,所述多个关联关系和所述多个初始连接线数量相同;对所述多个初始节点进行去重,得到包括所述多个节点和所述多个连接线的目标数据关系网络。4.根据权利要求3所述的方法,其特征在于,所述对所述多个初始节点进行去重,包括:根据预先设定的规则对所述多个初始节点进行去重。5.根据权利要求3所述的方法,其特征在于,所述对所述多个初始节点进行去重,包括:通过特征工程对所述多个字段的属性进行补充;根据所述多个字段的属性,通过相似度模型得到所述多个字段对应的所述多个初始节点之间的相似度;根据所述多个初始节点之间的相似度,对所述多个初始节点进行去重。6.根据权利要求3所述的方法,其特征在于,所述对所述多个初始节点进行去重,包括:通过图嵌入算法,将所述...

【专利技术属性】
技术研发人员:张旭东陈可黄海潮黄宇腾张建松谢裕清应张驰何东陈珊严家祥柴林
申请(专利权)人:国网浙江省电力有限公司信息通信分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1