【技术实现步骤摘要】
一种基于图神经网络的多模态元数据表征方法及系统
[0001]本专利技术涉及人工智能结合元数据
,尤其涉及一种基于图神经网络的多模态元数据表征方法及系统。
技术介绍
[0002]元数据是描述数据的数据,包括数据的属性或其结构。在普通关系型数据库中,元数据即某数据表单的字段。元数据是所有数据查询与分析的基础,也是为数据的可查找性服务的,其表征形式对于数据的搜索有强烈的影响。元数据的维护和使用对于数据查找非常重要,尤其是对于处理多源的异构数据并要求高数据质量的大数据应用。自动生成的元数据通常是不稳定的,这是由于自动生成元数据的过程过分依赖自然语言处理算法对于数据标题的分析。利用手工元数据生成能提高数据的可查找性,用户对数据手动创建标签是最准确的元数据生成方式,但这种方法无法大规模应用。另外,多模态数据的异构性问题是影响数据可查找性的重要因素。异构数据库共享是系统集成的关键,是提高数据集成利用水平的关键。然而,元数据的异构性导致了数据资源的异构性,降低了数据资源的可访问性、可理解性和互通性。其次,元数据表征需满足标准化语法,即需要以合理、标准化的格式描述,以便数据用户和数据平台正确解析。同时,元数据必须在应用领域内具有单一明确的含义,以确保对相同元数据的统一理解,导致保证数据不方便查找。
技术实现思路
[0003]有鉴于此,本专利技术的目的之一是提供一种基于图神经网络的多模态元数据表征方法。解决了多模态数据由于其异构性导致的可查找性低的问题,提高了数据集成性与跨域数据共享的可实现性。
[0004 ...
【技术保护点】
【技术特征摘要】
1.一种基于图神经网络的多模态元数据表征方法,其特征在于:包括以下步骤:步骤S1:建立三层元数据模型,用于实现异构数据的集成化处理;步骤S2:根据三层元数据模型进行元数据分类,建立基于图神经网络的异构元数据表征方法;步骤S3:根据分类后的元数据类别建立分布式结构的智能元数据管理系统,以完成对元数据集成与共享系统的数据支持;步骤S4:根据智能元数据管理系统建立数据集成与共享系统,实现多模态数据互通。2.根据权利要求1所述的一种基于图神经网络的多模态元数据表征方法,其特征在于:所述三层元数据模型自下而上包括数据感知层、数据集成层和数据互通层。3.根据权利要求2所述的一种基于图神经网络的多模态元数据表征方法,其特征在于:建立的三层元数据模型具体包括:通过数据感知层获取多模态数据,用于描述数据源的种类和结构,包括但不限于数据源的名称、数据集的名称和数据源元数据的数据结构,数据感知层包括数据访问接口和公开的数据集;如果数据源或数据源结构发生了更改,数据源元数据会自动更新;通过数据集成层实现数据源元数据的图表示、元数据存储和管理,通过标准化元数据交换使元数据实现字段形式和图的形式化表示之间的转换;通过图形建模工具以形式化的方式表示元数据,其支持字段形式元数据文件的导入和图形式元数据文件的导出;数据互通层通过数据仓库统一调度管理,数据分析挖掘多模态数据的隐含信息,帮助用户实现在多模态数据中寻找到所需的数据,实现多数据平台的数据互通。4.根据权利要求3所述的一种基于图神经网络的多模态元数据表征方法,其特征在于:所述图形建模工具是以形式化的方式表示元数据,通过以中心元数据为分支建立图结构的形式化方式表示数据,消除多模态数据的异构性,所有数据与其每个元数据的表达结构都是三元组集合,每个三元组由数据、元数据、元数据种类组成;所述图神经网络是一种图数据结构的神经网络方法,通过结合全局重要性机制形成图重要性网络,在聚合元数据特征信息时将全局重要性机制用于确定节点的权重,将更加重要的元数据种类赋予更高的权重。5.根据权利要求4所述的一种基于图神经网络的多模态元数据表征方法,其特征在于:通过以下公式来表示元数据i的重要性:上式中,I(M
i
)表示元数据i的重要性,d为阻尼系数,Num(M
i
)为整个数据库中所存在的包含元数据i的数据的数量,即元数据i出现的次数,T
j
表示元数据的种类,Num(T
j
)表示元数据种类T
j
包含的所有元数据数量,n表示元数据种类的数量;利用全局重要性计算主节点与其他节点的关系权重,如下所示:其中,α
ij
表示节点i与节点j的全局重要性系数,N
i
表示节点i的邻居节点集合,a
T
表示单
层前馈神经网络的权重向量,W表示嵌入权重,e
i
、e
j
、e
k
分别为节点i、j、k对应的嵌入向量,定义如下式所示:e
i
=φ(I(M
i
),W
e
)上式中,φ表示嵌入函数,W
e
表示嵌入权重;元数据i的聚集重要性m
i
定义如下:上式...
【专利技术属性】
技术研发人员:闵圣捷,方波,饶定远,涂攀,
申请(专利权)人:中电智元数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。