本发明专利技术公开了一种企业元数据解释的自动生成方法,包括步骤:关系集定义:基于企业的数据资产包括数据文档、数据库等来定义对应的关系集;知识图谱构建:用企业的数据手册、数据库数据等提取对应的三元组数据,形成知识图谱;实体对齐:将企业数据手册、数据库数据的元数据构成的知识图谱进行实体对齐;关系补全:基于对齐后的图谱进行关系的互相补全,得到完整的知识图谱;文本模板定义:根据企业实际数据资产场景定义相应的元数据关系解释文本的生成模板;解释性文本生成:用前面得到的完整的知识图谱结合模板式生成方法,生成元数据的关系解释性文本。本发明专利技术能适应企业元数据解释的自动生成任务,生成的解释文本具有较好的准确性。性。性。
【技术实现步骤摘要】
一种企业元数据解释的自动生成方法
[0001]本专利技术涉及知识图谱领域,尤其涉及一种企业元数据解释的自动生成方法。
技术介绍
[0002]随着信息化的发展,企业数据海量式的增长,且呈现多源异构的特点。包括企业数据手册、企业数据库数据、企业数据日志等等。数据在不断迭代过程中,可能已出现文档记录和数据库实际数据不一致的情况。如数据文档中记录的元数据字段,在其他业务人员在数据库中的具体实现时可能采用了不同的命名形式。又或是数据库数据在企业场景的不断迭代过程中,部分字段数据作为无用数据或冗余数据被删除或者由于需求更迭又添加了部分新的字段数据等。异源数据的更迭对于业务人员进行数据盘点起到了很大的阻碍,同时由于数据的海量性和异源性,分管不同类别数据的业务人员在盘点时还需要进行讨论和对彼此业务的理解。这无疑代表着巨大的时间成本和人力成本。因此针对业务人员,如何进行企业数据资产的高效盘点,通过整合异源海量的数据并从中挖掘企业元数据的含义和关系成为一项重要的问题。
[0003]企业元数据解释的生成方法,目前的方法集中在以下几个方面:(1)基于人工对齐的方法由于异源数据的复杂性和企业元数据盘点的一致性的要求,需要相应的业务人员对业务数据有较好的理解,从而对异源的数据进行分析推理。异源数据中的同名同属性的字段,作为预对齐的种子,然后通过业务人员结合字段名,属性以及实际业务调用等信息来人为地分析异源数据中字段之间的映射关系。从而得到结合异源数据源下的完整的字段含义及关系。
[0004]这种方法相对来说最为准确,但需要耗费大量人力和时间成本,且随着信息化时代下数据的爆炸式增长,更是难以商业化。
[0005](2)基于深度学习的方法随着计算机性能的不断增长,深度学习逐渐登上了舞台。深度学习不在乎特征,模型定好之后只管输入,有了输入就能输出一个最好的结果。基本不用修改代码,只需要调参。基于深度学习的信息抽取,目前效果最好,但是需要大量人工标注的样本,训练成本很高。
技术实现思路
[0006]本专利技术的目的在于克服现有技术的不足,进行企业元数据间关系的解释性文本自动生成,生成的描述文本具有较好准确性,从而提供一种企业元数据解释的自动生成方法。
[0007]本专利技术的目的是通过以下技术方案来实现的:一种企业元数据解释的自动生成方法,包括以下步骤:S1,关系集定义:根据企业实际的数据资产场景进行对应关系集的定义;S2,知识图谱构建:用定义好的关系集,基于企业数据手册和数据库数据提取对应
的三元组数据,分别形成不同的知识图谱;S3,实体对齐:将企业数据手册、数据库元数据构成的异源知识图谱进行图谱中实体间的对齐;S4,关系补全:基于对齐后的两个知识图谱,进行不同图谱之间的关系互相补全,用于得到完整的知识图谱;S5,文本模板定义:根据企业实际场景需求,定义能够用于元数据关系解释性文本生成的模板;S6,解释性文本生成:用于将得到的完整知识图谱中的元数据间关系填写入定义好的文本模板中,生成元数据的关系描述性文本。
[0008]进一步的,所述步骤S1中企业实际的数据资产场景包括企业数据手册和数据库数据。
[0009]进一步的,所述步骤S1中定义对应关系集具体为:分别建立基于企业数据手册的关系集和基于数据库数据的关系集,即元数据间的关系。
[0010]进一步的,所述步骤S2具体为:基于定义的关系集,分别从企业数据手册和企业数据库数据中提取元数据及其之间的关系,得到三元组数据分别形成两者的知识图谱。
[0011]进一步的,所述步骤S3具体包括以下子步骤:S301:准备训练集,训练样本来自上一步构建的企业数据手册对应的知识图谱G1=(E1,R1,T1)和企业数据库数据对应的知识图谱G2=(E2,R2,T2),其中E代表实体,R代表关系,T表示图谱中的三元组;S302:神经网络设计,训练网络采用2个RGCN卷积网络各用来处理1个知识图谱得到相应的实体特征信息;图中节点的特征更新计算过程如下:
[0012]其中,为l+1层实体i的嵌入表示;为非线性激活函数;为l层实体j的嵌入表示;为实体自身的线性转化函数;为l层实体i的嵌入表示;表示节点i的关系为r的邻居节点集合;为正则化常量;为线性转化函数,将同类型边的邻居节点,使用参数矩阵来进行转化;的个数就是边类型数,表示按照边的类型来分类聚合邻居节点的信息用于更新节点表示。
[0013]S303:RGCN主要得到周围的邻居节点信息的结构信息,并且通过词向量embedding得到节点本身的属性信息,通过加权求和得到节点的特征信息;实体对齐是基于两个KG实体间的距离来预测的,对于G1中的和G2中的,计算如下距离:
[0014]其中,, 和分别表示实体的结构嵌入和属性嵌入,
和则分别代表结构嵌入和属性嵌入的维度,β是一个超参数;等价实体间距离应尽可能小,非等价实体距离则尽可能大,因此对于G1中一实体,会计算G2中所有实体与的距离并排序作为候选实体集,然后从候选实体集选择距离最近且满足阈值的实体作为预测对齐结果;为尽可能拉近两图谱中等价实体在向量空间中的嵌入表示,利用已知的对齐种子实体对M作为训练数据训练RGCN模型,对应的损失函数如下:
[0015]和分别表示结构特征和属性特征的损失函数,二者独立并分开进行优化;M为阶段的实体集合;e`为实体e随机替换后的负例实体;v`为实体v随机替换后的负例实体;是基于e或v随机替换得到的负例,通过从G1或G2中随机选取一个实体来替换(e,v)中的e或v来创建;f用于计算距离;和分别为结构特征超参和属性特征超参且均大于0,用于提升对齐的效果,表示理想的正例和负例之间的距离。
[0016]进一步的,所述步骤S5具体为:在进行知识图谱间的对齐和关系补全后,得到相对完整的企业元数据知识图谱;并基于此来进行元数据间关系的描述性文本生成,从而基于具体的企业数据场景,通过相关业务人员来自行构建对应的文本描述模板。
[0017]进一步的,所述步骤S6具体为:基于完整的企业元数据知识图谱,以及步骤S5定义的文本描述模板,将完整图谱以三元组的形式作为输入,填入对应的文本描述模板,从而得到企业元数据的关系解释性文本。
[0018]本专利技术的有益效果:本专利技术针对企业数据资产场景,提出一种企业元数据解释的自动生成方法,采用了基于深度学习的实体对齐、关系补全和人工模板规则相结合的方法。此方式对于企业元数据的解释文本生成,具有较好的准确性,且能够极大地降低时间成本和人力成本。
附图说明
[0019]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0020]图1是本专利技术的方法流程图。
实施方式
[0021]应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种企业元数据解释的自动生成方法,其特征在于,包括以下步骤:S1,关系集定义:根据企业实际的数据资产场景进行对应关系集的定义;S2,知识图谱构建:用定义好的关系集,基于企业数据手册和数据库数据提取对应的三元组数据,分别形成不同的知识图谱;S3,实体对齐:将企业数据手册、数据库元数据构成的异源知识图谱进行图谱中实体间的对齐;S4,关系补全:基于对齐后的两个知识图谱,进行不同图谱之间的关系互相补全,用于得到完整的知识图谱;S5,文本模板定义:根据企业实际场景需求,定义能够用于元数据关系解释性文本生成的模板;S6,解释性文本生成:用于将得到的完整知识图谱中的元数据间关系填写入定义好的文本模板中,生成元数据的关系描述性文本。2.根据权利要求1所述的企业元数据解释的自动生成方法,其特征在于,所述步骤S1中企业实际的数据资产场景包括企业数据手册和数据库数据。3.根据权利要求2所述的企业元数据解释的自动生成方法,其特征在于,所述步骤S1中定义对应关系集具体为:分别建立基于企业数据手册的关系集和基于数据库数据的关系集,即元数据间的关系。4.根据权利要求1所述的企业元数据解释的自动生成方法,其特征在于,所述步骤S2具体为:基于定义的关系集,分别从企业数据手册和企业数据库数据中提取元数据及其之间的关系,得到三元组数据分别形成两者的知识图谱。5.根据权利要求1所述的企业元数据解释的自动生成方法,其特征在于,所述步骤S3具体包括以下子步骤:S301:准备训练集,训练样本来自上一步构建的企业数据手册对应的知识图谱G1=(E1,R1,T1)和企业数据库数据对应的知识图谱G2=(E2,R2,T2),其中E代表实体,R代表关系,T表示图谱中的三元组;S302:神经网络设计,训练网络采用2个RGCN卷积网络各用来处理1个知识图谱得到相应的实体特征信息;图中节点的特征更新计算过程如下:;其中, 为l+1层实体i的嵌入表示;为非线性激活函数;为l层实体j的嵌入表示;为实体自身的线性转化函数;为l层实体i的嵌入表示;表示节点i的关系...
【专利技术属性】
技术研发人员:王震,周正斌,花福军,钟凯,廖文绪,王波,
申请(专利权)人:创意信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。