当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于谓词的多源数据集清洗方法技术

技术编号:19388917 阅读:50 留言:0更新日期:2018-11-10 02:02
本发明专利技术提出一种基于谓词的多源数据集清洗方法所提供的方法能够有效从同构多源数据集中识别出最可靠的数据项,涉及数据清洗、数据融合等领域。所述方法包括:1)用自动化方法挖掘谓词,并对挖掘出来的谓词进行过滤;2)根据谓词推导数据集中各实体的属性值的可信度;3)建立属性值可信度跟数据源可信度之间的关系,计算数据源可信度;4)结合数据源可信度和属性值可信度找出可信度最高的数据项。对于多个数据源,本发明专利技术可以对来自不同数据源但内容相同的信息进行分析,过滤掉冗余、错误和过时的数据,留下可信度最高的数据,为后续数据分析夯实基础,对后续数据处理的效率和准确率具有重要意义。

A method of multi source data set cleaning based on predicate

The method provided by the predicate-based multi-source data set cleaning method can effectively identify the most reliable data items from isomorphic multi-source data sets, involving data cleaning, data fusion and other fields. The methods include: 1) mining predicates with automation method and filtering the extracted predicates; 2) deducing the credibility of attribute values of entities in data set based on predicates; 3) establishing the relationship between attribute values and data source credibility, and calculating data source credibility; 4) combining data source credibility and attribute values, the reliability of data sources can be calculated. Reliability is the most reliable data item. For multiple data sources, the present invention can analyze information from different data sources but with the same content, filter out redundant, error and outdated data, leave the data with the highest reliability, lay a solid foundation for subsequent data analysis, and is of great significance to the efficiency and accuracy of subsequent data processing.

【技术实现步骤摘要】
一种基于谓词的多源数据集清洗方法
本专利技术涉及数据清洗、数据融合等领域,尤其是一种基于谓词的多源数据集清洗方法。
技术介绍
在信息时代,可以从大量的数据源中找到对同一个事件或者物体的描述数据,同时由于时间错误、格式错误、精确度、完整性、语义上的歧义等原因,来自不同数据源对同一实体的描述存在不一致性。在从不同数据源搜集数据后,解决属于同一实体的描述数据之间的不一致性,对后续的数据分析至关重要。简单的投票策略——选择较多数据源支持的描述——并不适用于当下Web环境,而需要考虑数据源可信度、数据本身的可信度以及一些先验知识来设计更复杂的清洗策略。现有的清洗策略主要包括以下几种:中国专利201410387772号申请文件公开了“一种基于交通多源数据融合的公交路况处理系统及方法”,它融合来自不同数据源的描述公交路况的交通数据得到可供展示的路况信息。它的输入为特定交通数据,没有根据谓词进行可信度判断,也没有根据数据和数据源之间的关系计算数据源的可信度。中国专利201110369877号申请文件公开了“一种多源数据集成平台及其构建方法”,它是对不同的数据进行管理,这些数据之间不存在一致性问题。美国专利US8190546号申请文件公开了“Dependencybetweensourcesintruthdiscovery”,它通过数据源之间的拷贝关系建立概率图模型来评估数据源和数据的可信度,并不涉及用谓词来评估数据的可信度。
技术实现思路
专利技术目的:为了克服目前在多源数据融合中,描述相同实体的数据不一致的问题,也就是多源数据一致性问题中难以确定数据可信度初始值,以及如何结合数据源可信度和数据可信度的问题,本专利技术提供一种基于数据源可信度和数据可信度的多源数据集清洗方法,通过设定谓词计算数据可信度,再通过数据可信度计算数据源可信度,最终找出可信度最高的数据,达到数据清洗的目的。技术方案:为实现上述技术效果,本专利技术提出一种基于谓词的多源数据集清洗方法,包括步骤:(1)构建谓词模型:定义优先级谓词、状态谓词和交互谓词;其中,优先级谓词为Prior(Ai,Aj),表示属性Ai的优先级高于属性Aj的优先级;状态谓词为:其中,ti表示语句i,表示语句i中属性Ak的属性值,表示预定义的与之间满足的条件,φ(ti,tj)表示预定义的ti与tj之间满足的条件;Stat(Ak)表示当ti和tj满足条件P和φ时,ti的质量高于tj;交互谓词为:Interδ(A1,…,Al),表示当数据满足条件δ时,该条数据的属性A1,…,Al的属性值质量差;(2)通过步骤(1)定义的谓词模型对待清洗的数据集进行谓词挖掘,得到数据集中的优先级谓词、状态谓词和交互谓词;(3)根据得到的谓词推导数据集中各数据的属性值可信度,包括步骤:(3-1)初始化数据集中数据的所有属性值可信度为0,并为每一条数据的各属性值设置影响因子η,η为一个常数;(3-2)运用状态谓词和交互谓词更新每条数据各属性值的可信度,更新时,先运用状态谓词更新再运用交互谓词更新,或先运用交互谓词更新再运用状态谓词更新;运用状态谓词更新数据各属性值的可信度的步骤为:两两枚举数据集中的两条数据ti和tj,如果ti和tj在属性Ak上满足状态谓词:则将属性值的可信度减去η;运用交互谓词更新数据各属性值的可信度的步骤为:遍历数据集中的所有数据,如果一条数据满足某个交互谓词Interδ(A1,…,Al),则将该条数据属性A1,…,Al的属性值的可信度减去η;(3-3)在步骤(2)完成后,运用优先级谓词更新每条数据的属性值可信度,更新时,按照优先级从高到低的顺序依次执行优先级谓词;执行优先级谓词Prior(Ai,Aj)的步骤为:若多条数据在属性Aj上的属性值的可信度相同,则将它们按照Ai的属性值可信度做升序排序,按照排序后的顺序,在排在第n位的数据的Aj的属性值可信度上加上n-1;(3-4)得到所有属性值的可信度后,对于多值属性,返回所有可信度大于等于预设阈值的属性值作为结果;对于只需要返回一个结果的属性,执行步骤(4)至(6);(4)将所有属性值的可信度进行归一化;根据公式计算待清洗数据集中所有数据源的可信度;其中,λi表示数据源Di的可信度,t表示数据源Di中的一条数据,d(t)表示数据t的可信度,数据t的可信度等于该条数据所有属性值可信度之和;(5)根据公式更新各属性值的可信度,D′表示对于属性Aj提供属性值的数据源;更新后返回步骤(4);(6)重复执行步骤(4)至(5),直至所有属性值的可信度收敛;对于只需返回一个结果的属性,找出该属性下可信度最高的属性值为最终结果。进一步的,所述优先级谓词的定义方法为:对于属性Ai和Aj,若满足pscore(Ai)<pscore(Aj),则定义优先级谓词Prior(Ai,Aj),表示属性Ai的优先级pscore(Ai)高于属性Aj的优先级pscore(Aj);其中,H(Ai)表示属性Ai的香农熵,pn(Ai)表示属性Ai的所有属性值中null值的比例。进一步的,所述状态谓词和交互谓词均通过一阶逻辑谓词挖掘方法获得。进一步的,在对数据集进行清洗前,对于所有的数据集的所有属性进行人工标记,标记每个属性需要返回一个结果还是多个结果,如果一个属性只需返回一个结果,则标记该属性为单值属性,清洗时将该属性下可信度最高的属性值为最终结果;如果一个属性可能存在多个结果,则标记该属性为多值属性,清洗时将该属性下可信度大于预设阈值的所有属性值为最终结果。有益效果:与现有技术相比,本专利技术具有以下优势:无需假定一个属性仅有一个正确值存在,也不依赖于众包,无需大量人工干预,利用自动挖掘出的谓词和数据集与属性值之间的关系找出可信度高的属性值。本专利技术通过挖掘自定义谓词来对属性值的可信度打分,对于多答案属性找出可信度高于预设阈值的属性值作为结果,对于剩下属性,结合数据源可信度和属性值可信度的关系进一步更新属性值可信度,找到可信度最高的属性值作为结果,对提高数据分析的效率和数据分析的精确度具有重要意义。采用本专利技术的技术方案,工程人员可以比较容易地实现相关软件。附图说明图1为本专利技术的流程图;图2为本专利技术中更新数据源中属性值可信度的计算流程示意图。具体实施方式下面结合附图对本专利技术作更进一步的说明。图1所示为本专利技术的流程图,本专利技术主要包括以下几个部分:a)首先定义三种谓词:1)优先级谓词:对于属性Ai和Aj,如果pscore(Ai)<pscore(Aj),则定义一个优先级谓词Prior(Ai,Aj),表示属性Ai的优先级pscore(Ai)高于属性Aj的优先级pscore(Aj);其中,H(Ai)表示属性Ai的香农熵,pn(Ai)表示属性Ai的所有属性值中null值的比例。H(Ai)的计算公式为:H(Ai)=-∑x∈Xp(x)log2p(x),X为属性Ai属性值的值域,p(x)代表属性值x占所有属性值的比重(不包括null值)。2)状态谓词:状态谓词为一阶逻辑谓词,其形式为:表示ti和tj满足条件P和φ,则ti的质量高于tj。上述定义中的条件而fi(v1,v2)可被v1=v2或v1≠v2替换。状态谓词定义中的P可以被预先定义的6个谓词替换,分别是P1(v1,v2)、P2(v1,v2)、P3(v1,v2)本文档来自技高网...

【技术保护点】
1.一种基于谓词的多源数据集清洗方法,其特征在于,包括步骤:(1)构建谓词模型:定义优先级谓词、状态谓词和交互谓词;其中,优先级谓词为Prior(Ai,Aj),表示属性Ai的优先级高于属性Aj的优先级;状态谓词为:

【技术特征摘要】
1.一种基于谓词的多源数据集清洗方法,其特征在于,包括步骤:(1)构建谓词模型:定义优先级谓词、状态谓词和交互谓词;其中,优先级谓词为Prior(Ai,Aj),表示属性Ai的优先级高于属性Aj的优先级;状态谓词为:其中,ti表示语句i,表示语句i中属性Ak的属性值,表示预定义的与之间满足的条件,φ(ti,tj)表示预定义的ti与tj之间满足的条件;Stat(Ak)表示当ti和tj满足条件P和φ时,ti的质量高于tj;交互谓词为:Interδ(A1,…,Al),表示当数据满足条件δ时,该条数据的属性A1,…,Al的属性值质量差;(2)通过步骤(1)定义的谓词模型对待清洗的数据集进行谓词挖掘,得到数据集中的优先级谓词、状态谓词和交互谓词;(3)根据得到的谓词推导数据集中各数据的属性值可信度,包括步骤:(3-1)初始化数据集中数据的所有属性值可信度为0,并为每一条数据的各属性值设置影响因子η,η为一个常数;(3-2)运用状态谓词和交互谓词更新每条数据各属性值的可信度,更新时,先运用状态谓词更新再运用交互谓词更新,或先运用交互谓词更新再运用状态谓词更新;运用状态谓词更新数据各属性值的可信度的步骤为:两两枚举数据集中的两条数据ti和tj,如果ti和tj在属性Ak上满足状态谓词:则将属性值的可信度减去η;运用交互谓词更新数据各属性值的可信度的步骤为:遍历数据集中的所有数据,如果一条数据满足某个交互谓词Interδ(A1,…,Al),则将该条数据属性A1,…,Al的属性值的可信度减去η;(3-3)在步骤(2)完成后,运用优先级谓词更新每条数据的属性值可信度,更新时,按照优先级从高到低的顺序依次执行优先级谓词;执行优先级谓词Prior(Ai,Aj)的步骤为:若多条数据在属性Aj上的属性值的可信度相同,则将它们按照Ai的属性值可信度做升序排序,按照排序后...

【专利技术属性】
技术研发人员:谢子哲李论刘奇志
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1