一种基于图神经网络的真值发现方法技术

技术编号:30639632 阅读:96 留言:0更新日期:2021-11-04 00:32
一种基于图神经网络的真值发现方法,包括源可靠性建模、观测值可信度建模和真值推断三步骤。首先构建一个包含源

【技术实现步骤摘要】
一种基于图神经网络的真值发现方法


[0001]本专利技术涉及一种真值发现方法,具体是一种基于图神经网络的真值发现方法,属于真值发现


技术介绍

[0002]近年来,图嵌入学习已经成为处理现实世界问题的强大技术,它可以自然地整合节点信息,获得每个节点的有意义的向量表示。图嵌入或网络嵌入是数据挖掘和机器学习界日益关注的另一个课题,主要通过图神经网络(Graph Neural Network,GNN)来实现。图嵌入旨在通过保留图的网络拓扑结构和节点内容信息,将图中顶点表示为低维向量,以便使用简单的机器学习算法(例如,支持向量机分类)进行处理。图嵌入学习的这一优势为推进真值发现带来了巨大潜力,因为真值发现中的数据可以自然地表示为source

claim图和source

source图。
[0003]真值发现(Truth Discovery,TD)作为解决数据融合过程中的信息冲突问题的一种手段,在传统数据库领域已经得到了广泛的研究。真值发现主要指的是给定多个数据源提供的对于多个实体的大量具有冲突的描本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的真值发现方法,其特征在于,包括以下步骤:步骤1:源可靠性建模步骤1

1:引入源可靠性建模的第一种交互:源

观测值交互:G
sc
=(S∪C,GE
sc
),式中,S表示源的集合,C表示观测值集合,GE
sc
表示源和观测值之间的边,并定义源s
i
提供的观测值c
j
的源感知得分r
ij
作为边上权值;步骤1

2:将所有源、观测值和源感知得分嵌入,得到它们的向量表示;步骤1

3:将源

观测值交互中的每一个交互向量化;步骤1

4:引入变量观测值注意力α
ia
,其中α
ia
表示在源s
i
的观测值集合中的c
a
对源s
i
在claim

space中的潜在因子的注意力权值,设计注意力网络来参数化α
ia
,在实现过程中使用两层神经网络来获取,可靠性感知交互表示x
ia
和目标源s
i
的嵌入p
i
被作为网络的输入;步骤1

5:计算源s
i
在源

观测值交互中的潜在因子步骤1

6:引入源可靠性建模的第二种交互:源

源交互:G
ss
=(S,GE
ss
),式中,S表示源的集合,GE
ss
表示源和源之间的边,并定义源s
i
与源s
j
之间的相似度sim
ij
;步骤1

7:引入变量源注意力β
io
,其中β
io
表示在源s
i
的相似源集合中的s
o
对源s
i
在源

源交互中的潜在因子的注意力权值;步骤1

8:计算源s
i
在源

源交互中的潜在因子步骤1

9:图神经网络模型聚合步骤1

5和步骤1

8两种交互中的潜在因子,学习源的可靠性嵌入h
i
;步骤2:观测值可信度建模步骤2

1:根据学习到的源的可靠性嵌入h
i
来表示观测值的可信度嵌入;步骤3:真值推断步骤3

1:将步骤2

1得到的所有观测值的可信度嵌入按照训练集:测试集=1:9比例划分,然后结合训练集中的观测值的标签,使用机器学习库中的梯度提升决策树分类器,训练分类模型TD分类器;步骤3

2:推断未知真值的其他条目的真值,使用学习到的TD分类器计算并输出每一个观测值为真的概率值,最后取条目的互斥观测值集合中为真概率最大的观测值作为此条目的真值输出。2.根据权利要求1所述的一种基于图神经网络的真值发现方法,其特征在于,所述步骤1

1中,如果一个源s
i
提供了一个观测值c
j
,则定义观测值c
j
的源感知得分r
ij
作为边上的权值,否则为0,其中r
ij
的定义如下:式中:为提供观测值c
j
的源的集合;为提供观测值c
i
的源的集合;为条目e
i
的所有互斥观测值集合。3.根据权利要求1或2所述的一种基于图神经网络的真值发现方法,其特征在于,所述
步骤1

2中源s
i
的嵌入向量表示为p
i
,对于源s
i
提供的一个观测值c
a
,得到观测值的嵌入向量q
a
,源感知得分r
ia
的嵌入向量表示为u
r
,其中对应的嵌入向量p
i
,q...

【专利技术属性】
技术研发人员:董永权陈华凤
申请(专利权)人:江苏师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1