一种基于谓词的多源数据集清洗方法技术

技术编号：19388917 阅读：50 留言：0更新日期：2018-11-10 02:02

本发明专利技术提出一种基于谓词的多源数据集清洗方法所提供的方法能够有效从同构多源数据集中识别出最可靠的数据项，涉及数据清洗、数据融合等领域。所述方法包括：1)用自动化方法挖掘谓词，并对挖掘出来的谓词进行过滤；2)根据谓词推导数据集中各实体的属性值的可信度；3)建立属性值可信度跟数据源可信度之间的关系，计算数据源可信度；4)结合数据源可信度和属性值可信度找出可信度最高的数据项。对于多个数据源，本发明专利技术可以对来自不同数据源但内容相同的信息进行分析，过滤掉冗余、错误和过时的数据，留下可信度最高的数据，为后续数据分析夯实基础，对后续数据处理的效率和准确率具有重要意义。

A method of multi source data set cleaning based on predicate

The method provided by the predicate-based multi-source data set cleaning method can effectively identify the most reliable data items from isomorphic multi-source data sets, involving data cleaning, data fusion and other fields. The methods include: 1) mining predicates with automation method and filtering the extracted predicates; 2) deducing the credibility of attribute values of entities in data set based on predicates; 3) establishing the relationship between attribute values and data source credibility, and calculating data source credibility; 4) combining data source credibility and attribute values, the reliability of data sources can be calculated. Reliability is the most reliable data item. For multiple data sources, the present invention can analyze information from different data sources but with the same content, filter out redundant, error and outdated data, leave the data with the highest reliability, lay a solid foundation for subsequent data analysis, and is of great significance to the efficiency and accuracy of subsequent data processing.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于谓词的多源数据集清洗方法
本专利技术涉及数据清洗、数据融合等领域，尤其是一种基于谓词的多源数据集清洗方法。
技术介绍
在信息时代，可以从大量的数据源中找到对同一个事件或者物体的描述数据，同时由于时间错误、格式错误、精确度、完整性、语义上的歧义等原因，来自不同数据源对同一实体的描述存在不一致性。在从不同数据源搜集数据后，解决属于同一实体的描述数据之间的不一致性，对后续的数据分析至关重要。简单的投票策略——选择较多数据源支持的描述——并不适用于当下Web环境，而需要考虑数据源可信度、数据本身的可信度以及一些先验知识来设计更复杂的清洗策略。现有的清洗策略主要包括以下几种：中国专利201410387772号申请文件公开了“一种基于交通多源数据融合的公交路况处理系统及方法”，它融合来自不同数据源的描述公交路况的交通数据得到可供展示的路况信息。它的输入为特定交通数据，没有根据谓词进行可信度判断，也没有根据数据和数据源之间的关系计算数据源的可信度。中国专利201110369877号申请文件公开了“一种多源数据集成平台及其构建方法”，它是对不同的数据进行管理，这些数据之间不存在一致性问题。美国专利US8190546号申请文件公开了“Dependencybetweensourcesintruthdiscovery”，它通过数据源之间的拷贝关系建立概率图模型来评估数据源和数据的可信度，并不涉及用谓词来评估数据的可信度。
技术实现思路
专利技术目的：为了克服目前在多源数据融合中，描述相同实体的数据不一致的问题，也就是多源数据一致性问题中难以确定数据可信度初始值，以及如何结合...

【技术保护点】
1.一种基于谓词的多源数据集清洗方法，其特征在于，包括步骤：(1)构建谓词模型：定义优先级谓词、状态谓词和交互谓词；其中，优先级谓词为Prior(Ai，Aj)，表示属性Ai的优先级高于属性Aj的优先级；状态谓词为：

【技术特征摘要】
1.一种基于谓词的多源数据集清洗方法，其特征在于，包括步骤：(1)构建谓词模型：定义优先级谓词、状态谓词和交互谓词；其中，优先级谓词为Prior(Ai，Aj)，表示属性Ai的优先级高于属性Aj的优先级；状态谓词为：其中，ti表示语句i，表示语句i中属性Ak的属性值，表示预定义的与之间满足的条件，φ(ti，tj)表示预定义的ti与tj之间满足的条件；Stat(Ak)表示当ti和tj满足条件P和φ时，ti的质量高于tj；交互谓词为：Interδ(A1，…，Al)，表示当数据满足条件δ时，该条数据的属性A1，…，Al的属性值质量差；(2)通过步骤(1)定义的谓词模型对待清洗的数据集进行谓词挖掘，得到数据集中的优先级谓词、状态谓词和交互谓词；(3)根据得到的谓词推导数据集中各数据的属性值可信度，包括步骤：(3-1)初始化数据集中数据的所有属性值可信度为0，并为每一条数据的各属性值设置影响因子η，η为一个常数；(3-2)运用状态谓词和交互谓词更新每条数据各属性值的可信度，更新时，先运用状态谓词更新再运用交互谓词更新，或先运用交互谓词更新再运用状态谓词更新；运用状态谓词更新数据各属性值的可信度的步骤为：两两枚举数据集中的两条数据ti和tj，如果ti和tj在属性Ak上满足状态谓词：则将属性值的可信度减去η；运用交互谓词更新数据各属性值的可信度的步骤为：遍历数据集中的所有数据，如果一条数据满足某个交互谓词Interδ(A1，…，Al)，则将该条数据属性A1，…，Al的属性值的可信度减去η；(3-3)在步骤(2)完成后，运用优先级谓词更新每条数据的属性值可信度，更新时，按照优先级从高到低的顺序依次执行优先级谓词；执行优先级谓词Prior(Ai，Aj)的步骤为：若多条数据在属性Aj上的属性值的可信度相同，则将它们按照Ai的属性值可信度做升序排序，按照排序后...

【专利技术属性】
技术研发人员：谢子哲，李论，刘奇志，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人