一种数据源权重评估方法及其相关装置制造方法及图纸

技术编号:38250091 阅读:13 留言:0更新日期:2023-07-25 18:08
本申请公开了一种数据源权重评估方法及其相关装置,涉及数据清洗技术领域。包括:获取第一数据集;基于所述第一数据集,获取第二数据集;基于所述第一数据集和所述第二数据集,获取至少一个评价因素;基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重。本申请通过借助各个数据源之间的相关性以及各个数据源的外部信息,来获取各个数据源的权重值。使用该值作为真值发现算法的初始化权重值,既可以克服现有方法中先验知识不足的缺陷,也可以避免真值发现算法因初始化权重不准确而导致的准确率低的问题。确而导致的准确率低的问题。确而导致的准确率低的问题。

【技术实现步骤摘要】
一种数据源权重评估方法及其相关装置


[0001]本申请涉及数据清洗
,具体为一种数据源权重评估方法及其相关装置。

技术介绍

[0002]真值发现是一种用于从冲突数据中提取有效信息的先进技术,是数据融合中的重要组成部分,能有效提高数据质量,极大降低虚假信息带来的影响。在真值发现任务中,最主要的任务就是对数据源的可信度(在真值发现算法中,数据源的可信度即是以其对应的权重体现的)进行准确估计。
[0003]目前,常用的数据源的可信度评估方法有一致性方法和先验方法。其中,一致性方法,即对每个数据源分配同样的权重,此种方法在数据源完全遵从独立性假设时是可行的。但是在实际应用中,数据源之间可能存在信息复制拷贝,尤其是当部分数据源提供的数据是从不可靠数据源复制而来的时候,数据源的独立性假设将会失效。而目前所公开的先验方法,多种多样,例如:有学者通过数据源之间的相似性来获取数据源的权重,但这种方法无法处理独立的数据源;有些学者则利用已知的数据源的外部信息来获取权重,但这些数据源的权重并不总是已知的;还有些学者尝试通过检测数据源之间的复制拷贝关系来调整权重,但当提供相似观测值的数据源是从可靠的数据源的复制的时,该方法则会失效。

技术实现思路

[0004]本申请的目的在于提供一种数据源权重评估方法及其相关装置,可以解决真值发现算法中由于数据源权重不准确而导致的算法准确率低的问题。
[0005]为实现上述目的,本申请提供如下技术方案:第一方面,本申请实施例提供一种数据源权重评估方法,所述方法包括:获取第一数据集;所述第一数据集包括至少一个数据源,各个数据源用于描述至少一个目标对象;基于所述第一数据集,获取第二数据集,所述第二数据集基于所述第一数据集中所有的目标对象获取;基于所述第一数据集和所述第二数据集,获取至少一个评价因素;基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重;所述各个评价因素的评价权重预先设定。
[0006]在本申请的一个实施方式中,所述至少一个评价因素,至少包括:数据源覆盖度、数据源重要性、数据源权威性、数据源偏离度和数据源独立性中的任意一个或者多个的组合。
[0007]在本申请的一个实施方式中,所述数据源覆盖度,至少包括:各个数据源所描述的目标对象在所述第二数据集中所占据的比例;所述数据源重要性,至少包括:基于各个数据源的来源网站的PR值获取;所述数据源权威性,至少包括:各个数据源的来源评分。
[0008]在本申请的一个实施方式中,所述数据源偏离度的获取方法包括:基于所述第一数据集,获取至少一个第一聚类簇;基于所述第一聚类簇,获取所述第一聚类簇中各个数据源之间的距离;基于各个数据源之间的距离,获取所述数据源偏离度。
[0009]在本申请的一个实施方式中,所述数据源独立性的获取方法包括:基于所述第一聚类簇,获取至少一个第二聚类簇;基于所述第二聚类簇,获取所述数据源独立性;所述数据源独立性包括:其中,为数据源,为第一聚类簇形成的第二聚类簇数,为第二聚类簇中的数据源总数。
[0010]在本申请的一个实施方式中,基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重,包括:基于各个评价因素和各个评价因素的评价权重,构造模糊评价矩阵;基于所述模糊评价矩阵,获取模糊综合评价向量;基于所述模糊综合评价向量,采用加权平均算子,获取各个数据源的权重。
[0011]第二方面,本申请的实施例提供一种数据源权重评估装置,包括:获取模块,用于获取第一数据集;所述第一数据集包括至少一个数据源,各个数据源用于描述至少一个目标对象;以及,基于所述第一数据集,获取第二数据集,所述第二数据集基于所述第一数据集中所有的目标对象获取;处理模块,用于基于所述第一数据集和所述第二数据集,获取至少一个评价因素;以及,基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重;所述各个评价因素的评价权重预先设定;在本申请的一个实施方式中,所述至少一个评价因素,至少包括:数据源覆盖度、数据源重要性、数据源权威性、数据源偏离度和数据源独立性中的任意一个或者多个的组合。
[0012]在本申请的一个实施方式中,所述数据源覆盖度,至少包括:各个数据源所描述的目标对象在所述第二数据集中所占据的比例;所述数据源重要性,至少包括:基于各个数据源的来源网站的PR值获取;所述数据源权威性,至少包括:各个数据源的来源评分。
[0013]在本申请的一个实施方式中,所述处理模块还用于,基于所述第一数据集,获取至少一个第一聚类簇;以及,基于所述第一聚类簇,获取所述第一聚类簇中各个数据源之间的距离;以及,基于各个数据源之间的距离,获取所述数据源偏离度。
[0014]在本申请的一个实施方式中,所述处理模块还用于,基于所述第一聚类簇,获取至少一个第二聚类簇;以及,基于所述第二聚类簇,获取所述数据源独立性;所述数据源独立性包括:其中,为数据源,为第一聚类簇形成的第二聚类簇数,为第二聚类簇中的数据源总数。
[0015]在本申请的一个实施方式中,所述处理模块还用于,基于各个评价因素和各个评价因素的评价权重,构造模糊评价矩阵;以及,基于所述模糊评价矩阵,获取模糊综合评价向量;以及,基于所述模糊综合评价向量,采用加权平均算子,获取各个数据源的权重。
[0016]在本申请的一个实施方式中,所述真值发现算法包括:TruthFinder算法、IRVote
算法和IRDVote算法。
[0017]第三方面,本申请的实施例提供一种数据源权重评估设备,包括:存储器和处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如第一方面中任意一种实施例所述的数据源权重评估方法。
[0018]第四方面,本申请的实施例提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被执行时能够实现如第一方面中任意一种实施例所述的数据源权重评估方法。
[0019]与现有技术相比,本申请的有益效果是:该方法通过借助各个数据源之间的相关性以及各个数据源的外部信息,来获取各个数据源的值。使用该值作为真值发现算法的初始化权重值,既可以克服现有方法中先验知识不足的缺陷,也可以避免真值发现算法因初始化权重不准确而导致的准确率低的问题。
附图说明
[0020]图1为本申请实施例所提出的数据源权重评估方法流程图;图2为本申请实施例所提出的数据源权重评估装置的示意图;图3为本申请实施例所提出的数据源权重评估设备的示意图。
具体实施方式
[0021]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地,描述显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0022]本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如:第一数据集和第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据源权重评估方法,其特征在于,所述方法包括:获取第一数据集;所述第一数据集包括至少一个数据源,各个数据源用于描述至少一个目标对象;基于所述第一数据集,获取第二数据集,所述第二数据集基于所述第一数据集中所有的目标对象获取;基于所述第一数据集和所述第二数据集,获取至少一个评价因素;基于各个评价因素和各个评价因素的评价权重,获取各个数据源的权重;所述各个评价因素的评价权重预先设定。2.根据权利要求1所述的数据源权重评估方法,其特征在于,所述至少一个评价因素,至少包括:数据源覆盖度、数据源重要性、数据源权威性、数据源偏离度和数据源独立性中的任意一个或者多个的组合。3.根据权利要求2所述的数据源权重评估方法,其特征在于,所述数据源覆盖度,至少包括:各个数据源所描述的目标对象在所述第二数据集中所占据的比例;所述数据源重要性,至少包括:基于各个数据源的来源网站的PR值获取;所述数据源权威性,至少包括:各个数据源的来源评分。4.根据权利要求2所述的数据源权重评估方法,其特征在于,所述数据源偏离度的获取方法包括:基于所述第一数据集,获取至少一个第一聚类簇;基于所述第一聚类簇,获取所述第一聚类簇中各个数据源之间的距离;基于各个数据源之间的距离,获取所述数据源偏离度。5.根据权利要求4所述的数据源权重评估方法,其特征在于,所述数据源独立性的获取方法包括:基于所述第一聚类簇,获取至少一个第二聚类簇;基于所述第二聚类簇,获取所述数据源独立性;所述数据源独立性包括:其中,为数据源,为第一聚类簇形成的第二聚类簇数...

【专利技术属性】
技术研发人员:孙太凤郭行飞
申请(专利权)人:中新宽维传媒科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1