一种基于属性融合的多真值发现方法技术

技术编号:34465291 阅读:27 留言:0更新日期:2022-08-10 08:38
本发明专利技术公开了一种基于属性融合的多真值发现方法,是无监督的多真值发现方法,考虑辅助属性对多真值发现的影响,将辅助属性得到的数据源专业度、共识度和多真值属性值的活跃度融合得到数据源对属性值的支持度,将多真值发现问题转化为分类问题,使用神经网络自动学习数据源与属性值之间的底层数据特征,从而最终预测出多个真值,能够提升多真值发现方法在数据集成领域实验结果的准确性,面对多源嘈杂、冲突的数据环境时能够自动识别、判断、推理出完整的真值或接近真值的数据,从而辅助使用者进行决策,提高决策效率和质量。提高决策效率和质量。提高决策效率和质量。

【技术实现步骤摘要】
一种基于属性融合的多真值发现方法


[0001]本专利技术涉及一种多真值发现方法,具体是一种基于属性融合的多真值发现方法,属于数据集成


技术介绍

[0002]随着互联网的发展,Web的数据量爆炸式增长。海量Web数据蕴含着巨大的商业价值和研究价值,但是由于输入错误、数据过时和记录丢失等原因导致并不是所有数据都是真实、可利用的。不同数据源关于同一对象在若干个属性上提供属性值,将存在多个真值的属性称为多真值属性,多真值属性以外的属性称为辅助属性。从数据源关于对象提供的若干个多真值属性值中找到所有真值则称为多真值发现。目前多真值发现方法已成功应用于很多场景,如大数据融合系统、高质量知识库的建设、人群感知、隐私保护、众包聚合以及医疗领域等。
[0003]现有的多真值发现方法,如:伊利诺伊大学厄巴纳分校Bo Zhao等人假设数据源质量的查全率和准确率服从Beta分布构建概率图模型LTM,使用基于抽样的方法推理出多真值属性上的多个真值(Zhao B,Rubinstein B I P,Gemmell J,et al.A bayesian approach to discovering truth from conflicting sources for data integration[J].arXiv preprint arXiv,2012.1203.058:p.550

561);阿德莱德大学Xianzhi Wang等人重构了数据源与多真值属性值之间的映射关系,结合了属性值之间的互斥关系,提出了一种贝叶斯方法实现多真值发现(Wang X,Sheng Q Z,Fang X S,et al.An integrated bayesian approach for effective multi

truth discovery[C]//Proceedings of the 24th ACM International on Conference on Information and Knowledge Management.2015:p.493

502);香港科技大学Xueling LIN等人考虑数据源领域专业知识,结合多真值属性值可信度评分,提出了一种整合贝叶斯方法的DART模型(Lin X,Chen L.Domain

aware multi

truth discovery from conflicting sources[J].Proceedings of the VLDB Endowment,2018,11(5):p.635

647);中国人民大学马如霞等人假设不同类别对象的属性值应该具有不同的可信度,提出了CTruthFinder算法(马如霞,孟小峰.基于数据源分类可信性的真值发现方法研究[J].计算机研究与发展.2015,52(09):第1931

1940页);上海理工大学卢菁等人根据数据分布的长尾现象对数据源进行分类,利用属性集相关性寻求数据源权值的最佳分配从而获取多个真值(卢菁,胡成,刘丛.利用属性集相关性与源误差的多真值发现方法研究[J].小型微型计算机系统.2019,40(03):第601

605页)。上述多真值发现方法只在对象的多真值属性上开展研究,缺少考虑辅助属性的影响,导致这些方法的准确性无法达到令人满意的效果。此外,上述多真值发现方法还需要手动定义规则,而这种规则很难适应和分析,不能很好地反映潜在的数据分布。

技术实现思路

[0004]针对上述问题,本专利技术提供一种基于属性融合的多真值发现方法,考虑并结合辅
助属性对多真值发现的影响,能够提升多真值发现方法在数据集成领域实验结果的准确性。
[0005]为实现上述目的,本基于属性融合的多真值发现方法具体包括以下步骤:
[0006]步骤1:利用离散辅助属性计算数据源专业度;
[0007]步骤1

1:统计数据集中数据源s
i
提供的属于集合的对象数量,其中,表示数据源s
i
关于对象o在离散辅助属性D上提供的值集,N(d,s
i
)表示数据源s
i
提供的属于种类d的对象数量;
[0008]步骤1

2:统计数据集中属于集合的对象数量,其中,N(d)表示数据集中所有数据源集合提供的属于种类d的对象数量;
[0009]步骤1

3:计算数据源s
i
在离散辅助属性D上对象o所属种类的贡献率
[0010][0011]步骤1

4:计算数据源s
i
在离散辅助属性D上关于o的专业度
[0012][0013]步骤2:利用连续辅助属性计算数据源共识度;
[0014]步骤2

1:根据数据源关于对象o在连续辅助属性C提供的连续值计算对象o的自适应桶距
[0015]步骤2

2:根据自适应桶距得到2:根据自适应桶距得到共个等段区间,其中,表示数据源集合关于对象o在连续辅助属性C上提供的值集,表示值集中的最大值,表示值集中的最小值,表示数据源s
i
关于对象o在连续辅助属性C上提供值集的长度,统计辅助属性连续值所属区间内值的数量,将个区间内值的数量从低到高依次记为
[0016]步骤2

3:计算数据源s
i
在对象o上共识度
[0017][0018]其中,其中,表示数据源s
i
关于对象o在连续辅助属性C上提供的连续值;
[0019]步骤3:利用多真值属性计算多真值属性值活跃度;
[0020]步骤3

1:对于多真值属性值计算其活跃度γ
v

[0021][0022]其中,表示数据源s
i
关于对象o提供的多真值属性值集,表示关于对象o提供属性值v的所有数据源组成的集合,表示所有属性值出现频次和;
[0023]步骤4:使用迭代方法获取真值伪标签和数据源初始可靠度;
[0024]步骤4

1:将数据源s
i
关于对象o在多真值属性上提供的值集中的值作为数据源s
i
提供的一条联合值;
[0025]步骤4

2:按照步骤4

1的处理调用基于迭代的单真值发现方法TruthFinder计算数据源提供的联合值成为真值的概率和数据源初始可靠度τ
s

[0026]步骤4

3:将关于对象o的成为真值概率最大的联合值拆分成单值,并将这些单值作为真值,得到属性值的伪标签;
[0027]步骤5:将数据源的专业度、共识度与多真值属性值的活跃度融合得到数据源本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于属性融合的多真值发现方法,其特征在于,具体包括以下步骤:步骤1:利用离散辅助属性计算数据源专业度;步骤1

1:统计数据集中数据源s
i
提供的属于集合的对象数量,其中,表示数据源s
i
关于对象o在离散辅助属性D上提供的值集,N(d,s
i
)表示数据源s
i
提供的属于种类d的对象数量;步骤1

2:统计数据集中属于集合的对象数量,其中,N(d)表示数据集中所有数据源集合提供的属于种类d的对象数量;步骤1

3:计算数据源s
i
在离散辅助属性D上对象o所属种类的贡献率在离散辅助属性D上对象o所属种类的贡献率步骤1

4:计算数据源s
i
在离散辅助属性D上关于o的专业度在离散辅助属性D上关于o的专业度步骤2:利用连续辅助属性计算数据源共识度;步骤2

1:根据数据源关于对象o在连续辅助属性C提供的连续值计算对象o的自适应桶距步骤2

2:根据自适应桶距得到2:根据自适应桶距得到共个等段区间,其中,表示数据源集合关于对象o在连续辅助属性C上提供的值集,表示值集中的最大值,表示值集中的最小值,表示数据源s
i
关于对象o在连续辅助属性C上提供值集的长度,统计辅助属性连续值所属区间内值的数量,将个区间内值的数量从低到高依次记为步骤2

3:计算数据源s
i
在对象o上共识度在对象o上共识度其中,其中,表示数据源s
i
关于对象o在连续辅助属性C上提供的连续值;步骤3:利用多真值属性计算多真值属性值活跃度;步骤3

1:对于多真值属性值计算其活跃度γ
v

其中,表示数据源s
i
关于对象o提供的多真值属性值集,表示关于对象o提供属性值v的所有数据源组成的集合,表示所有属性值出现频次和;步骤4:使用迭代方法获取真值伪标签和数据源初始可靠度;步骤4

1:将数据源s
i
关于对象o在多真值属性上提供的值集中的值作为数据源s
i
提供的一条联合值;步骤4

2:按照步骤4

1的处理调用单真值发现方法计算数据源提供的联合值成为真值的概率和数据源初始可靠度τ
s
;步骤4

3:将关于对象o的成为真值概率最大的联合值拆分成单值,并将这些单值作为真值,得到属性值的伪标签;步骤5:将数据源的专业度、共识度与多真值属性值的活跃度融合得到数据源对属性值的支持度,计算数据源s
...

【专利技术属性】
技术研发人员:董永权杨昊霖张功杰
申请(专利权)人:江苏师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1