一种数据源权重评估方法及其相关装置制造方法及图纸

技术编号：38250091 阅读：13 留言：0更新日期：2023-07-25 18:08

本申请公开了一种数据源权重评估方法及其相关装置，涉及数据清洗技术领域。包括：获取第一数据集；基于所述第一数据集，获取第二数据集；基于所述第一数据集和所述第二数据集，获取至少一个评价因素；基于各个评价因素和各个评价因素的评价权重，获取各个数据源的权重。本申请通过借助各个数据源之间的相关性以及各个数据源的外部信息，来获取各个数据源的权重值。使用该值作为真值发现算法的初始化权重值，既可以克服现有方法中先验知识不足的缺陷，也可以避免真值发现算法因初始化权重不准确而导致的准确率低的问题。确而导致的准确率低的问题。确而导致的准确率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据源权重评估方法及其相关装置

[0001]本申请涉及数据清洗
，具体为一种数据源权重评估方法及其相关装置。

技术介绍

[0002]真值发现是一种用于从冲突数据中提取有效信息的先进技术，是数据融合中的重要组成部分，能有效提高数据质量，极大降低虚假信息带来的影响。在真值发现任务中，最主要的任务就是对数据源的可信度(在真值发现算法中，数据源的可信度即是以其对应的权重体现的)进行准确估计。
[0003]目前，常用的数据源的可信度评估方法有一致性方法和先验方法。其中，一致性方法，即对每个数据源分配同样的权重，此种方法在数据源完全遵从独立性假设时是可行的。但是在实际应用中，数据源之间可能存在信息复制拷贝，尤其是当部分数据源提供的数据是从不可靠数据源复制而来的时候，数据源的独立性假设将会失效。而目前所公开的先验方法，多种多样，例如：有学者通过数据源之间的相似性来获取数据源的权重，但这种方法无法处理独立的数据源；有些学者则利用已知的数据源的外部信息来获取权重，但这些数据源的权重并不总是已知的；还有些学者尝试通过检测数据源之间的复制拷贝关系来调整权重，但当提供相似观测值的数据源是从可靠的数据源的复制的时，该方法则会失效。

技术实现思路

[0004]本申请的目的在于提供一种数据源权重评估方法及其相关装置，可以解决真值发现算法中由于数据源权重不准确而导致的算法准确率低的问题。
[0005]为实现上述目的，本申请提供如下技术方案：第一方面，本申请实施例提供一种数据源权重评估方法，所述方法包括：获取...

【技术保护点】

【技术特征摘要】
1.一种数据源权重评估方法，其特征在于，所述方法包括：获取第一数据集；所述第一数据集包括至少一个数据源，各个数据源用于描述至少一个目标对象；基于所述第一数据集，获取第二数据集，所述第二数据集基于所述第一数据集中所有的目标对象获取；基于所述第一数据集和所述第二数据集，获取至少一个评价因素；基于各个评价因素和各个评价因素的评价权重，获取各个数据源的权重；所述各个评价因素的评价权重预先设定。2.根据权利要求1所述的数据源权重评估方法，其特征在于，所述至少一个评价因素，至少包括：数据源覆盖度、数据源重要性、数据源权威性、数据源偏离度和数据源独立性中的任意一个或者多个的组合。3.根据权利要求2所述的数据源权重评估方法，其特征在于，所述数据源覆盖度，至少包括：各个数据源所描述的目标对象在所述第二数据集中所占据的比例；所述数据源重要性，至少包括：基于各个数据源的来源网站的PR值获取；所述数据源权威性，至少包括：各个数据源的来源评分。4.根据权利要求2所述的数据源权重评估方法，其特征在于，所述数据源偏离度的获取方法包括：基于所述第一数据集，获取至少一个第一聚类簇；基于所述第一聚类簇，获取所述第一聚类簇中各个数据源之间的距离；基于各个数据源之间的距离，获取所述数据源偏离度。5.根据权利要求4所述的数据源权重评估方法，其特征在于，所述数据源独立性的获取方法包括：基于所述第一聚类簇，获取至少一个第二聚类簇；基于所述第二聚类簇，获取所述数据源独立性；所述数据源独立性包括：其中，为数据源，为第一聚类簇形成的第二聚类簇数...

【专利技术属性】
技术研发人员：孙太凤，郭行飞，
申请(专利权)人：中新宽维传媒科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人