真值发现方法、装置制造方法及图纸

技术编号:38712177 阅读:17 留言:0更新日期:2023-09-08 14:55
本公开提供了一种真值发现方法,可以应用于数据集成技术领域。该方法包括:基于数据源与数据源针对目标提出的声明,构建数据源

【技术实现步骤摘要】
真值发现方法、装置


[0001]本公开涉及数据集成
,尤其涉及一种真值发现方法、装置。

技术介绍

[0002]随着互联网的蓬勃发展,各种新兴技术在带给人们便利的同时,也产生了海量的数据信息。但产生这些数据信息的设备质量参差不齐,关注领域各不相同,同一实体往往处于多个数据源的观察下并被割裂的投影在数据空间中。为了对这些具备隐藏关联的低质量海量多源异构数据信息进行深度挖掘分析,大多采用数据融合方法将这些数据信息加以关联治理以充分释放其价值。而在数据融合的过程中,受到数据收集过程中的遮挡、模糊、过期等数据冲突问题的影响,数据信息的准确性、完整性无法得到保证,因此,常采用真值发现解决数据冲突问题。
[0003]真值发现主要是指从多个数据源对目标的不同描述(即数据冲突)中筛选出真实声明及可靠数据源。现有真值发现工作大多集中于数据源与声明之间的初步对应关系,缺失了数据源、声明之间更进一层的潜在的协同关系以及数据源观察倾向带来的差异对抗信息,使得学习得到的可靠数据源、真实声明与其他数据源、声明在高维空间中区分度不明显,最终实际区分效果较差。

技术实现思路

[0004]鉴于上述问题,本公开提供一种真值发现方法、装置,以解决现有真值发现技术中缺乏数据源、声明之间更进一层的潜在的协同关系以及数据源观察倾向带来的差异对抗信息,使得最终实际区分效果较差的问题。
[0005]本公开的第一方面提供了一种真值发现方法,包括:
[0006]基于数据源与数据源针对目标提出的声明,构建数据源
r/>声明二分图;
[0007]基于所述数据源

声明二分图,利用多跳图注意力网络,获取所述数据源

声明二分图中的节点的高阶节点信息;
[0008]基于预提取的所述数据源的对抗信息与所述高阶节点信息,获取真值发现的结果。
[0009]根据本公开的实施例,所述利用多跳图注意力网络,获取所述数据源

声明二分图中的节点的高阶节点信息包括:
[0010]利用多跳图注意力网络,获取所述节点的直接注意力信息;
[0011]基于所述直接注意力信息,获取所述节点的扩散注意力信息;
[0012]聚合所述节点的所述扩散注意力信息,得到所述节点的高阶节点信息。
[0013]根据本公开的实施例,所述数据源的对抗信息通过预设的损失函数提取相应的对抗数据源得到,互为所述对抗数据源的两个所述数据源针对同一目标提出的所述声明不同。
[0014]根据本公开的实施例,所述聚合所述节点的所述扩散注意力信息,得到所述节点
的高阶节点信息包括:
[0015]基于所述节点与所述节点的多跳节点的距离,为所述节点的多跳节点设置权重系数;
[0016]基于所述权重系数,聚合所述节点的所述扩散注意力,得到所述节点的高阶节点信息。
[0017]根据本公开的实施例,所述节点的多跳节点与所述节点的距离越远,所述节点的多跳节点的所述权重系数越小。
[0018]根据本公开的实施例,所述数据源的数量为P个,所述声明的数量为Q个,所述构建数据源

声明二分图包括:
[0019]构建数据源

声明矩阵,所述数据源

声明矩阵为P行Q列,所述数据源声明

矩阵中包括P*Q个元素,当第i个数据源提出了m次第j个声明,则所述数据源

声明矩阵中的第i行第j列的元素为m,其中,i∈P,j∈Q,P和Q均为正整数,m为非负整数;
[0020]基于所述数据源

声明矩阵,获取数据源表征;
[0021]基于数据源与声明之间的对应关系,预训练得到声明表征;
[0022]以数据源集合与声明集合为子集,以所述数据源与所述声明的对应关系为边,以所述数据源表征为数据源节点属性,以所述声明表征为声明节点属性,构建得到数据源

声明二分图,所述数据源集合包括P个所述数据源,所述声明集合包括Q个所述声明。
[0023]根据本公开的实施例,所述基于预提取的所述数据源的对抗信息与所述高阶节点信息,获取真值发现的结果包括:
[0024]构造真值发现变分自编码器;
[0025]基于所述变分自编码器,获取所述数据源的可靠性特征;
[0026]基于预设的可学习真值,获取所述声明的可信度特征;
[0027]基于所述可靠性特征以及所述可信度特征,解码得到真值发现的结果。
[0028]本公开的第二方面提供了一种真值发现装置,包括:
[0029]构建模块,用于基于数据源与数据源针对目标提出的声明,构建数据源

声明二分图;
[0030]第一获取模块,用于基于所述数据源

声明二分图,利用多跳图注意力网络,获取所述数据源

声明二分图中的节点的高阶节点信息;
[0031]第二获取模块,用于基于预提取的所述数据源的对抗信息与所述高阶节点信息,获取真值发现的结果。
[0032]本公开提供了一种真值发现方法、装置,通过图注意力网络使得各节点间的扩散注意力信息得到利用,同时结合扩散注意力信息与各数据源之间的对抗信息,在特征空间中生成更贴合的数据源以及声明表示,提升了变分自编码器对于可靠数据源与真实声明的区分能力,提高了真值发现的准确性。
附图说明
[0033]通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
[0034]图1示意性示出了根据本公开实施例的一种真值发现方法的流程示意图;
[0035]图2示意性示出了根据本公开实施例的一种真值发现方法中节点连接关系示意图;
[0036]图3示意性示出了根据本公开实施例的一种真值发现方法中的获取高阶节点信息的方法流程示意图;
[0037]图4示意性示出了根据本公开实施例的一种真值发现方法中的构建数据源

声明二分图的方法流程示意图;
[0038]图5示意性示出了根据本公开实施例的一种真值发现方法中的获取真值发现结果的方法流程示意图;以及
[0039]图6示意性示出了根据本公开实施例的一种真值发现装置的结构框图。
具体实施方式
[0040]以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
[0041]在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种真值发现方法,其特征在于,包括:基于数据源与数据源针对目标提出的声明,构建数据源

声明二分图;基于所述数据源

声明二分图,利用多跳图注意力网络,获取所述数据源

声明二分图中的节点的高阶节点信息;基于预提取的所述数据源的对抗信息与所述高阶节点信息,获取真值发现的结果。2.根据权利要求1所述的方法,其特征在于,所述利用多跳图注意力网络,获取所述数据源

声明二分图中的节点的高阶节点信息包括:利用多跳图注意力网络,获取所述节点的直接注意力信息;基于所述直接注意力信息,获取所述节点的扩散注意力信息;聚合所述节点的所述扩散注意力信息,得到所述节点的高阶节点信息。3.根据权利要求1所述的方法,其特征在于,所述数据源的对抗信息通过预设的损失函数提取相应的对抗数据源得到,互为所述对抗数据源的两个所述数据源针对同一目标提出的所述声明不同。4.根据权利要求2所述的方法,其特征在于,所述聚合所述节点的所述扩散注意力信息,得到所述节点的高阶节点信息包括:基于所述节点与所述节点的多跳节点的距离,为所述节点的多跳节点设置权重系数;基于所述权重系数,聚合所述节点的所述扩散注意力,得到所述节点的高阶节点信息。5.根据权利要求4所述的方法,其特征在于,所述节点的多跳节点与所述节点的距离越远,所述节点的多跳节点的所述权重系数越小。6.根据权利要求1所述的方法,其特征在于,所述数据源的数量为P个,所述声明的数量为Q个,所述构建数据源

声明二分图包括:构建数据源

声...

【专利技术属性】
技术研发人员:王轶张国昊周喜马玉鹏赵凡王保全薛化建韩云飞
申请(专利权)人:中国科学院新疆理化技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1