数据可信度评估方法、装置、设备和存储介质制造方法及图纸

技术编号:20589099 阅读:28 留言:0更新日期:2019-03-16 07:13
本发明专利技术实施例公开了一种数据可信度评估方法、装置、设备和存储介质。该方法包括:依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度;依据各数据源中各主体关联的属性值的可信度,确定各数据源的可信度;依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。本发明专利技术实施例通过数据间的关联关系,实现了多源数据融合过程中对相同主体关联的属性值的可信度进行有效评估,提高多源数据融合过程中数据冲突时对数据可信度判断的决策力和效率。

【技术实现步骤摘要】
数据可信度评估方法、装置、设备和存储介质
本专利技术实施例涉及大数据融合
,尤其涉及一种数据可信度评估方法、装置、设备和存储介质。
技术介绍
随着信息技术的快速发展,大数据用以描述和定义信息爆炸时代产生的海量数据,例如企业在日常运营时各业务部门生成的数据,或者累积的用户网络行为数据等。因此通过大数据融合技术将多源数据进行有效的整合,能够提高大数据的分析和处理效率。鉴于数据在输入、变换等操作过程中由于人为或者设备的误差,可能导致描述同一主体的数据在不同的数据源中存在误差、缺失甚至是相互冲突的现象,进而导致在多源数据融合过程中,无法判断多样性数据的可信度,降低数据融合的效率和准确性。现有技术通常依据投票原则或者取均值原则,来确定相互冲突的多源数据。然而,现有技术无法有效地确定多源数据中各数据的可信度,只是综合考虑各数据的存在性,宏观上确定数据的相对取值,降低了数据融合的准确度,数据的可靠性较低。
技术实现思路
本专利技术实施例提供了一种数据可信度评估方法、装置、设备和存储介质,能够确定多数据源中每个主体关联的属性值的可信度,提高数据可信度评估的准确性,为数据融合提供依据。第一方面,本专利技术实施例提供了一种数据可信度评估方法,包括:依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度;依据各数据源中各主体关联的属性值的可信度,确定各数据源的可信度;依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。第二方面,本专利技术实施例提供了一种数据可信度评估装置,包括:属性值可信度确定模块,用于依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度;数据源可信度确定模块,用于依据各数据源中各主体关联的属性值的可信度,确定各数据源的可信度;综合数据可信度评估模块,用于依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。第三方面,本专利技术实施例提供了一种设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所述的数据可信度评估方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例所述的数据可信度评估方法。本专利技术实施例依据至少两个数据源中相同主体关联的属性值信息,确定同一数据源中各主体关联的属性值的可信度,并依据各属性值的可信度确定各数据源的可信度,从而依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。本专利技术实施例通过数据间的关联关系,实现了多源数据融合过程中对相同主体关联的属性值的可信度进行有效评估,提高多源数据融合过程中数据冲突时对数据可信度判断的决策力和效率。附图说明图1为本专利技术实施例一提供的一种数据可信度评估方法的流程图;图2为本专利技术实施例二提供的一种数据可信度评估方法的流程图;图3为本专利技术实施例三提供的一种数据可信度评估装置的结构示意图;图4为本专利技术实施例四提供的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术实施例,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术实施例相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种数据可信度评估方法的流程图,本实施例可适用于在多数据源融合过程中对数据的可信度进行评估的情况,该方法可由一种数据可信度评估装置来执行。该方法具体包括如下步骤:步骤110、依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度。在本专利技术具体实施例中,数据源是指可以提供某种所需数据的原始媒体,数据源可以为表格或文件等存在形式。具体的,数据源中记录了不同主体的相关数据,主体的相关数据由不同属性构成,属性可以由不同的属性值来描述。其中,主体可以是指数据所描述的对象,例如具体的人或事物等;属性值可以是指数据源中针对某一主体的具体属性提供的数据。一个数据源中可以包括至少一个主体,一个主体可以由至少一个属性构成,一个属性可以由至少一个属性值来描述。示例性的,假设表格A中包括用户甲和用户乙,用户甲包括属性a、b和c,属性a的具体数据值为a1,属性b的具体数据值为b1,属性c的具体数据值为c1,以此类推。相应的,表格A即为数据源,用户甲和用户乙即为数据源所包括的主体,数据值a1、b1和c1即为属性值。在多源数据进行融合的过程,多数据源中记录的主体可能相同也可能不相同,对于相同的主体其相同属性下的属性值可能存在数据冲突。示例性的,数据源A和数据源B中均包括主体甲,数据源A中记录主体甲的属性a的属性值为a1,数据源B中记录主体甲的属性a的属性值为a2,可见数据源A和数据源B对于主体甲的属性a的属性值存在冲突。因此,为了提高数据融合的效率和准确度,需要选取可信度较高的属性值作为数据融合后的真值,或者,在数据融合过程中,为相同主体关联的相同属性下的不同属性值分别进行可信度评估和标注,以为后期数据的选取或分析提供依据。本实施例中,在至少两个数据源进行数据融合的过程中,首先确定各个单一数据源中各主体关联的属性值的可信度。其中,可以依据不同数据源之间数据的关联关系,获取至少两个数据源中的相同主体关联的属性值信息,以此来确定各个单一数据源中各主体关联的属性值的可信度。其中,属性值信息可以包括属性值的生成时间、属性值的出现次数、相同主体的属性种类数量以及相同主体关联的相同属性的最后一次出现的目标属性值等。具体的,首先,依据属性值的生成时间,确定至少两个数据源中相同主体关联的相同属性值的出现次数,并依据各属性值的出现次数,确定各属性值的可信度。其次,依据至少两个数据源中相同主体关联的相同属性值的生成时间、属性种类数量、或者相同属性最后一次出现的目标属性值,调整各数据源中各主体关联的属性值的可信度。示例性的,首先,统筹所有数据源中相同主体关联的相同属性值的出现次数,依据预设公式计算各属性值的初始可信度。其次,可以以距离当前时间越近的属性值的可信度越高为原则,依据数据源之间数据的关联关系以及数据源的可信度,对各属性值的初始可信度进行调整。其中,可以初始化各数据源的可信度或等级,为不同等级预设关联的可信度阈值、可信次数阈值或时间阈值等阈值信息。例如,对于同一公司下不同业务部门产生的数据,预先将不同业务部门提供的数据源设定为一、二和三等级,其中,一等级数据源来自权威性较高且较为可信的业务部门,二等级数据源来自权威性相对一等级略低的业务部门,三等级数据源来自权威性较低且可信度相对较低的业务部门。且数据源等级是随着数据源可信度的变化而变化的,后续可以依据数据源可信度的排序来划分数据源等级。预设关联的可信度阈值和可信次数阈值可以随着数据源等级的升高而变大,时间阈值可以随着数据源等级的升高而变小。具体的,依据数据源之间数据的关联关系以及数据本文档来自技高网...

【技术保护点】
1.一种数据可信度评估方法,其特征在于,包括:依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度;依据各数据源中各主体关联的属性值的可信度,确定各数据源的可信度;依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。

【技术特征摘要】
1.一种数据可信度评估方法,其特征在于,包括:依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度;依据各数据源中各主体关联的属性值的可信度,确定各数据源的可信度;依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。2.根据权利要求1所述的方法,其特征在于,所述依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度,包括:依据属性值的生成时间,确定至少两个数据源中相同主体关联的相同属性值的出现次数,并依据各属性值的出现次数,确定各属性值的可信度;依据至少两个数据源中相同主体关联的相同属性值的生成时间、属性种类数量、或者相同属性最后一次出现的目标属性值,调整各数据源中各主体关联的属性值的可信度。3.根据权利要求2所述的方法,其特征在于,依据至少两个数据源中相同主体关联的相同属性值的生成时间,调整各数据源中各主体关联的属性值的可信度,包括:在至少两个数据源中,依据相同主体关联的相同属性值的生成时间,对于在预设时间阈值之内未再出现的属性值,则依据时间衰减系数,将该属性值的可信度进行衰减处理;对于可信度衰减的属性值,依据相同主体关联的相同属性值的生成时间,若在至少一个可信度高于预设的可信度判定阈值的数据源中再次出现,则将该属性值的可信度恢复为衰减前的可信度取值。4.根据权利要求2所述的方法,其特征在于,依据至少两个数据源中相同主体关联的属性种类数量,调整各数据源中各主体关联的属性值的可信度,包括:在至少一个可信度高于预设的可信度判定阈值的数据源中,若同一主体下有新种类的唯一值属性出现,则依据时间衰减系数,将至少两个数据源中的非唯一值属性的原属性值的可信度进行衰减处理;对所述时间衰减系数进行放大处理,依据放大后的时间衰减系数,将至少两个数据源中的除了新种类的唯一值属性以外的各唯一值属性的原属性值的可信度进行衰减处理。5.根据权利要求2所述的方法,其特征在于,依据至少两个数据源...

【专利技术属性】
技术研发人员:王梅刘京武万月亮
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1