一种基于属性融合的多真值发现方法技术

技术编号：34465291 阅读：27 留言：0更新日期：2022-08-10 08:38

本发明专利技术公开了一种基于属性融合的多真值发现方法，是无监督的多真值发现方法，考虑辅助属性对多真值发现的影响，将辅助属性得到的数据源专业度、共识度和多真值属性值的活跃度融合得到数据源对属性值的支持度，将多真值发现问题转化为分类问题，使用神经网络自动学习数据源与属性值之间的底层数据特征，从而最终预测出多个真值，能够提升多真值发现方法在数据集成领域实验结果的准确性，面对多源嘈杂、冲突的数据环境时能够自动识别、判断、推理出完整的真值或接近真值的数据，从而辅助使用者进行决策，提高决策效率和质量。提高决策效率和质量。提高决策效率和质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于属性融合的多真值发现方法

[0001]本专利技术涉及一种多真值发现方法，具体是一种基于属性融合的多真值发现方法，属于数据集成

技术介绍

[0002]随着互联网的发展，Web的数据量爆炸式增长。海量Web数据蕴含着巨大的商业价值和研究价值，但是由于输入错误、数据过时和记录丢失等原因导致并不是所有数据都是真实、可利用的。不同数据源关于同一对象在若干个属性上提供属性值，将存在多个真值的属性称为多真值属性，多真值属性以外的属性称为辅助属性。从数据源关于对象提供的若干个多真值属性值中找到所有真值则称为多真值发现。目前多真值发现方法已成功应用于很多场景，如大数据融合系统、高质量知识库的建设、人群感知、隐私保护、众包聚合以及医疗领域等。
[0003]现有的多真值发现方法，如：伊利诺伊大学厄巴纳分校Bo Zhao等人假设数据源质量的查全率和准确率服从Beta分布构建概率图模型LTM，使用基于抽样的方法推理出多真值属性上的多个真值(Zhao B,Rubinstein B I P,Gemmell J,et al.A bayesian approach to discovering truth from conflicting sources for data integration[J].arXiv preprint arXiv,2012.1203.058:p.550
‑
561)；阿德莱德大学Xianzhi Wang等人重构了数据源与多真值属性值之间的映射关系，结合了属性值之间的互斥关系，提出...

【技术保护点】

【技术特征摘要】
1.一种基于属性融合的多真值发现方法，其特征在于，具体包括以下步骤：步骤1：利用离散辅助属性计算数据源专业度；步骤1
‑
1：统计数据集中数据源s
i
提供的属于集合的对象数量，其中，表示数据源s
i
关于对象o在离散辅助属性D上提供的值集，N(d,s
i
)表示数据源s
i
提供的属于种类d的对象数量；步骤1
‑
2：统计数据集中属于集合的对象数量，其中，N(d)表示数据集中所有数据源集合提供的属于种类d的对象数量；步骤1
‑
3：计算数据源s
i
在离散辅助属性D上对象o所属种类的贡献率在离散辅助属性D上对象o所属种类的贡献率步骤1
‑
4：计算数据源s
i
在离散辅助属性D上关于o的专业度在离散辅助属性D上关于o的专业度步骤2：利用连续辅助属性计算数据源共识度；步骤2
‑
1：根据数据源关于对象o在连续辅助属性C提供的连续值计算对象o的自适应桶距步骤2
‑
2：根据自适应桶距得到2：根据自适应桶距得到共个等段区间，其中，表示数据源集合关于对象o在连续辅助属性C上提供的值集，表示值集中的最大值，表示值集中的最小值，表示数据源s
i
关于对象o在连续辅助属性C上提供值集的长度，统计辅助属性连续值所属区间内值的数量，将个区间内值的数量从低到高依次记为步骤2
‑
3：计算数据源s
i
在对象o上共识度在对象o上共识度其中，其中，表示数据源s
i
关于对象o在连续辅助属性C上提供的连续值；步骤3：利用多真值属性计算多真值属性值活跃度；步骤3
‑
1：对于多真值属性值计算其活跃度γ
v
，
其中，表示数据源s
i
关于对象o提供的多真值属性值集，表示关于对象o提供属性值v的所有数据源组成的集合，表示所有属性值出现频次和；步骤4：使用迭代方法获取真值伪标签和数据源初始可靠度；步骤4
‑
1：将数据源s
i
关于对象o在多真值属性上提供的值集中的值作为数据源s
i
提供的一条联合值；步骤4
‑
2：按照步骤4
‑
1的处理调用单真值发现方法计算数据源提供的联合值成为真值的概率和数据源初始可靠度τ
s
；步骤4
‑
3：将关于对象o的成为真值概率最大的联合值拆分成单值，并将这些单值作为真值，得到属性值的伪标签；步骤5：将数据源的专业度、共识度与多真值属性值的活跃度融合得到数据源对属性值的支持度，计算数据源s
...

【专利技术属性】
技术研发人员：董永权，杨昊霖，张功杰，
申请(专利权)人：江苏师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人