一种基于图神经网络的多模态元数据表征方法及系统技术方案

技术编号:37813284 阅读:10 留言:0更新日期:2023-06-09 09:43
本发明专利技术公开了一种基于图神经网络的多模态元数据表征方法及系统,该方法包括:为了实现异构数据的集成化处理,提出三层元数据模型;根据三层元数据模型进行元数据分类,建立基于图神经网络的异构元数据表征方法;建立分布式结构的智能元数据管理系统;利用图神经网络所关联起来的元数据建立数据集成与共享系统,实现多模态数据互通。本发明专利技术方法以图神经网络的多模态元数据表征为核心,增强数据的可查询性,建立异构多源数据集成系统,实现异构数据的跨平台数据互通。数据的跨平台数据互通。数据的跨平台数据互通。

【技术实现步骤摘要】
一种基于图神经网络的多模态元数据表征方法及系统


[0001]本专利技术涉及人工智能结合元数据
,尤其涉及一种基于图神经网络的多模态元数据表征方法及系统。

技术介绍

[0002]元数据是描述数据的数据,包括数据的属性或其结构。在普通关系型数据库中,元数据即某数据表单的字段。元数据是所有数据查询与分析的基础,也是为数据的可查找性服务的,其表征形式对于数据的搜索有强烈的影响。元数据的维护和使用对于数据查找非常重要,尤其是对于处理多源的异构数据并要求高数据质量的大数据应用。自动生成的元数据通常是不稳定的,这是由于自动生成元数据的过程过分依赖自然语言处理算法对于数据标题的分析。利用手工元数据生成能提高数据的可查找性,用户对数据手动创建标签是最准确的元数据生成方式,但这种方法无法大规模应用。另外,多模态数据的异构性问题是影响数据可查找性的重要因素。异构数据库共享是系统集成的关键,是提高数据集成利用水平的关键。然而,元数据的异构性导致了数据资源的异构性,降低了数据资源的可访问性、可理解性和互通性。其次,元数据表征需满足标准化语法,即需要以合理、标准化的格式描述,以便数据用户和数据平台正确解析。同时,元数据必须在应用领域内具有单一明确的含义,以确保对相同元数据的统一理解,导致保证数据不方便查找。

技术实现思路

[0003]有鉴于此,本专利技术的目的之一是提供一种基于图神经网络的多模态元数据表征方法。解决了多模态数据由于其异构性导致的可查找性低的问题,提高了数据集成性与跨域数据共享的可实现性。
[0004]本专利技术的目的之一是通过以下技术方案实现的:
[0005]该种基于图神经网络的多模态元数据表征方法,包括以下步骤:
[0006]步骤S1:建立三层元数据模型,用于实现异构数据的集成化处理;
[0007]步骤S2:根据三层元数据模型进行元数据分类,建立基于图神经网络的异构元数据表征方法;
[0008]步骤S3:根据分类后的元数据类别建立分布式结构的智能元数据管理系统,以完成对元数据集成与共享系统的数据支持;
[0009]步骤S4:根据智能元数据管理系统建立数据集成与共享系统,实现多模态数据互通。
[0010]该专利技术方法首先,建立特定元数据模型,用于不同元数据的统一分类处理,实现异构数据的集成化;再者,利用图神经网络将分类后的元数据用以节点形式表示,便于数据查询;最后,建立分布式的智能元数据管理系统,以达到跨域数据共享系统的数据支持;
[0011]进一步,所述步骤S1具体包括以下步骤:
[0012]所述三层元数据模型自下而上包括数据感知层L1、数据集成层L2和数据互通层L3;
[0013]进一步,建立的三层元数据模型具体包括:
[0014]通过数据感知层L1描述数据源的种类和结构等,包括但不限于数据源的名称、数据集的名称和数据源元数据的数据结构等。数据感知层包括数据访问接口和公开的数据集;如果数据源或数据源结构发生了更改,数据源元数据会自动更新;
[0015]通过数据集成层L2实现数据源元数据的图表示、元数据存储和管理,通过标准化元数据交换使元数据实现字段形式和图的形式化表示之间的转换;通过图形建模工具以形式化的方式表示元数据,其支持字段形式元数据文件的导入和图形式元数据文件的导出;
[0016]数据互通层L3通过数据仓库统一调度管理,数据分析挖掘多模态数据的隐含信息,帮助用户实现在多模态数据中寻找到所需的数据,实现多数据平台的数据互通;
[0017]本步骤的有益之处在于实现了多模态数据的跨平台互通,消除了多模态数据的异构性,使得元数据查询更加快捷、高效、便利。
[0018]进一步,所述步骤S2具体包括以下步骤:
[0019]所述图神经网络的建立,能够从结构和功能两个方面建模数据的整体特性,结构指元数据之间的相互关联,功能指查询指令在图中传播,寻找最优路径的过程,与图的结构和具体应用场景相关。与其他神经网络模型相比,图神经网络在数据建模和信息挖掘上,具有更强的直观性和普适性;
[0020]所述图形建模工具是以形式化的方式表示元数据,通过以中心元数据为分支建立图结构的形式化方式表示数据,消除多模态数据的异构性,所有数据与其每个元数据的表达结构都是三元组集合S=<D,M,T>,其中D为数据、M为元数据(表示M从D中提取出的)、T为元数据种类;
[0021]采用基于图神经网络的方法,通过结合全局重要性机制形成图重要性网络,可以在聚合元数据特征信息时应用全局重要性机制确定节点的权重,将更加重要的元数据种类赋予更高的权重;
[0022]进一步,通过以下公式来表示元数据i的重要性:
[0023][0024]上式中,I(M
i
)表示元数据i的重要性,d为阻尼系数,Num(M
i
)为整个数据库中所存在的包含元数据i的数据的数量,即元数据i出现的次数,T
j
表示元数据的种类,Num(T
j
)表示元数据种类T
j
包含的所有元数据数量,n表示元数据种类的数量;
[0025]利用全局重要性计算主节点与其他节点的关系权重,如下所示:
[0026][0027]其中,α
ij
表示节点i与节点j的全局重要性系数,N
i
表示节点i的邻居节点集合,a
T
表示单层前馈神经网络的权重向量,W表示嵌入权重,e
i
、e
j
、e
k
分别为节点i、j、k对应的嵌入向量,定义如下式所示:
[0028]e
i
=φ(I(M
i
),W
e
)
[0029]上式中,φ表示嵌入函数,W
e
表示嵌入权重;
[0030]进一步,元数据i的聚集重要性m
i
定义如下:
[0031][0032]上式中,σ是非线性函数,α
ij
表示节点i与节点j的全局重要性系数,W为嵌入权重,e
j
为节点j对应的嵌入向量;
[0033]所述步骤的有益之处在于解决了多模态元数据的查询优先级问题,将同类元数据在不同语言环境下的重要性进行独立计算,对更重要的元数据优先处理,提高了多模态元数据表征的准确性并加快了跨域数据集成的速度;
[0034]进一步,所述步骤S3具体包括以下步骤:
[0035]步骤S301:采用网络本体语言建立本体数据库,语义库将语义元数据模式存储在虚拟组织中;
[0036]步骤S302:建立分布式语义库虚拟组织,其中存储不同类别的结构化查询语言,包括数据定义语言、数据查询语言、数据操纵语言、事务控制语言、数据控制语言;
[0037]步骤S303:建立缓存存储数据库,其中包含从远程全局名称系统中提取的元数据;
[0038]步骤S304:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的多模态元数据表征方法,其特征在于:包括以下步骤:步骤S1:建立三层元数据模型,用于实现异构数据的集成化处理;步骤S2:根据三层元数据模型进行元数据分类,建立基于图神经网络的异构元数据表征方法;步骤S3:根据分类后的元数据类别建立分布式结构的智能元数据管理系统,以完成对元数据集成与共享系统的数据支持;步骤S4:根据智能元数据管理系统建立数据集成与共享系统,实现多模态数据互通。2.根据权利要求1所述的一种基于图神经网络的多模态元数据表征方法,其特征在于:所述三层元数据模型自下而上包括数据感知层、数据集成层和数据互通层。3.根据权利要求2所述的一种基于图神经网络的多模态元数据表征方法,其特征在于:建立的三层元数据模型具体包括:通过数据感知层获取多模态数据,用于描述数据源的种类和结构,包括但不限于数据源的名称、数据集的名称和数据源元数据的数据结构,数据感知层包括数据访问接口和公开的数据集;如果数据源或数据源结构发生了更改,数据源元数据会自动更新;通过数据集成层实现数据源元数据的图表示、元数据存储和管理,通过标准化元数据交换使元数据实现字段形式和图的形式化表示之间的转换;通过图形建模工具以形式化的方式表示元数据,其支持字段形式元数据文件的导入和图形式元数据文件的导出;数据互通层通过数据仓库统一调度管理,数据分析挖掘多模态数据的隐含信息,帮助用户实现在多模态数据中寻找到所需的数据,实现多数据平台的数据互通。4.根据权利要求3所述的一种基于图神经网络的多模态元数据表征方法,其特征在于:所述图形建模工具是以形式化的方式表示元数据,通过以中心元数据为分支建立图结构的形式化方式表示数据,消除多模态数据的异构性,所有数据与其每个元数据的表达结构都是三元组集合,每个三元组由数据、元数据、元数据种类组成;所述图神经网络是一种图数据结构的神经网络方法,通过结合全局重要性机制形成图重要性网络,在聚合元数据特征信息时将全局重要性机制用于确定节点的权重,将更加重要的元数据种类赋予更高的权重。5.根据权利要求4所述的一种基于图神经网络的多模态元数据表征方法,其特征在于:通过以下公式来表示元数据i的重要性:上式中,I(M
i
)表示元数据i的重要性,d为阻尼系数,Num(M
i
)为整个数据库中所存在的包含元数据i的数据的数量,即元数据i出现的次数,T
j
表示元数据的种类,Num(T
j
)表示元数据种类T
j
包含的所有元数据数量,n表示元数据种类的数量;利用全局重要性计算主节点与其他节点的关系权重,如下所示:其中,α
ij
表示节点i与节点j的全局重要性系数,N
i
表示节点i的邻居节点集合,a
T
表示单
层前馈神经网络的权重向量,W表示嵌入权重,e
i
、e
j
、e
k
分别为节点i、j、k对应的嵌入向量,定义如下式所示:e
i
=φ(I(M
i
),W
e
)上式中,φ表示嵌入函数,W
e
表示嵌入权重;元数据i的聚集重要性m
i
定义如下:上式...

【专利技术属性】
技术研发人员:闵圣捷方波饶定远涂攀
申请(专利权)人:中电智元数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1