【技术实现步骤摘要】
一种数据处理方法、装置、设备及存储介质
本专利技术实施例涉及大数据处理
,尤其涉及一种数据处理方法、装置、设备及存储介质。
技术介绍
随着科技的发展,尤其是人工智能与大数据技术的发展,我们进入信息化时代。通过大数据技术收集、处理并分析海量数据,探索数据中存在的潜在规律,并利用该规律进行有效的预测与研判,可以达到智能化的要求。然而,随着计算机网络技术的普及,网络数据总量呈爆发式增长,并具有典型的特征,如海量的数据规模、快速的数据流转、多样的数据类型、巨大的数据价值,同时,数据还具有异构性、动态性和复杂性。这些特征使数据可能存在记录不一致、不精确、不完整或者过时等问题,对于描述同一实体的数据也可能出现冲突的情况。换言之,数据可能是不可信的。实际中,用户通常会对某一事件的数据进行收集、整理及分析,进而了解事件的发展情况,并依据数据的分析结果对事件的发展进行预判。而数据的不可信性会使用户对事件的了解出现误导,出现有害的结果,甚至对经济、社会造成严重的损失。
技术实现思路
本专利技术实施例提供了一种数 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取黑名单中的数据;/n从要素库中读取追溯数据;其中,所述追溯数据包括多个数据字段,以及各个所述数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;/n判断所述黑名单中的数据是否包含所述追溯数据;/n若是,为所述追溯数据确定第一可信度分值;/n若否,获取所述追溯数据的各个所述数据字段,以及对应的所述数据源、所述数据字段编码、所述出现次数以及所述末次出现的时间信息;/n确定各个所述数据字段对应的所述数据源、所述出现次数以及所述末次出现的时间信息的权重和分数;/n根据所述权重和所述分数,为不在所述黑名单中的追溯数据确定第二可信度分值。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取黑名单中的数据;
从要素库中读取追溯数据;其中,所述追溯数据包括多个数据字段,以及各个所述数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;
判断所述黑名单中的数据是否包含所述追溯数据;
若是,为所述追溯数据确定第一可信度分值;
若否,获取所述追溯数据的各个所述数据字段,以及对应的所述数据源、所述数据字段编码、所述出现次数以及所述末次出现的时间信息;
确定各个所述数据字段对应的所述数据源、所述出现次数以及所述末次出现的时间信息的权重和分数;
根据所述权重和所述分数,为不在所述黑名单中的追溯数据确定第二可信度分值。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述第一可信度分值对应的所述追溯数据采用第一标记进行标识;
将所述第二可信度分值对应的所述追溯数据采用第二标记进行标识。
3.根据权利要求1所述的方法,其特征在于,所述判断所述黑名单中的数据是否包含所述追溯数据,包括:
判断所述追溯数据中数据字段编码对应的所述数据字段是否在所述黑名单中。
4.根据权利要求1所述的方法,其特征在于,所述为所述追溯数据确定第一可信度分值,包括:
为所述追溯数据中的各个所述数据字段确定第一目标可信度分值;
根据各个所述数据字段的第一目标可信度分值,确定所述追溯数据的第一可信度分值;
相应的,所述根据所述权重和所述分数,为不在所述黑名单中的追溯数据确定第二可信度分值,包括:
根据所述权重和所述分数,为不在所述黑名单中的追溯数据中的各个数据字段确定第二目标可信度分值;
根据各个所述数据字段的第二目标可信度分值,确定所述追溯数据的第二可信度分值。
5.根据权利要求1所述的方法,其特征在于,还包括:对各条追溯数据中的相同数据字段的合并去重,以及对相同追溯数据的合并去重。
6.根据权利要求5所述的方法,其特征在于,所述对各条追溯数据中的相同数据字段的合并去重,包括:
针对不在所述黑名单中的各条追溯数据,若存在相同数据字段,将第二目标可信度分值最高的数据字段,以及对应的数据源、数据字段编码、出现次数和末次出现的时间信息,分别替换追溯数据中其他相同的数据字段,以及所述其他相同的数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;
若数据字段的第二目标可信度分值相同,将数据...
【专利技术属性】
技术研发人员:毛勇岗,万月亮,程强,冯宇波,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。