一种数据处理方法、装置及存储介质制造方法及图纸

技术编号:27305669 阅读:50 留言:0更新日期:2021-02-10 09:17
本发明专利技术实施例提供了一种数据处理方法、装置及存储介质,方法包括:获取具备私密属性的数据集;基于数据所携带的时间属性将所述数据集划分为时序数据集和非时序数据集;分别对时序数据集及非时序数据集进行关联规则检测,得到携带时间属性的时序关联规则和/或未携带时间属性的非时序关联规则;在时序数据集中添加构造的伪时序数据,使得时序关联规则满足第一关联规则条件,和/或在非时序数据集中添加构造的伪非时序数据,使得非时序关联规则满足第二关联规则条件。如此,将源数据划分为时序数据集和非时序数据集,并通过添加构造的伪时序数据和伪非时序数据的方式分别对对应的时序关联规则和非时序关联规则进行隐藏,对数据进行完整的保护。行完整的保护。行完整的保护。

【技术实现步骤摘要】
一种数据处理方法、装置及存储介质


[0001]本专利技术涉及数据处理领域,尤其涉及一种数据处理方法、装置及存储介质。

技术介绍

[0002]相关技术对用户数据进行隐私处理主要采取加密、混淆等隐私保护技术,但对一些属性间数据隐藏的关联规则却未进行保护,而这些关联规则也会泄露用户的一部分隐私,目前关联规则所带来对隐私数据的安全威胁也逐渐引起人们的重视。相关技术在关联规则挖掘的隐私保护方面已经相继提出了许多解决的策略和方法,但此类数据保护技术在数据量比较大的情况下,仍可能挖掘出关联规则,导致隐私数据泄露,从而无法对数据进行有效完整保护。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供了一种数据处理方法、装置及存储介质,能够实现对数据中关联规则的隐藏,以对数据进行有效完整保护。
[0004]第一方面,本专利技术实施例提供了一种数据处理方法,所述方法包括:
[0005]获取具备私密属性的数据集;
[0006]基于数据所携带的时间属性将所述数据集划分为时序数据集和非时序数据集;
[0007]分别对所述时序数据集及所述非时序数据集进行关联规则检测,得到携带时间属性的时序关联规则和/或未携带时间属性的非时序关联规则;
[0008]在所述时序数据集中添加构造的伪时序数据,使得所述时序关联规则满足第一关联规则条件,和/或在所述非时序数据集中添加构造的伪非时序数据,使得所述非时序关联规则满足第二关联规则条件。
[0009]上述方案中,所述获取具备私密属性的数据集,包括:
[0010]确定所述私密属性所包括的属性信息;
[0011]基于所述属性信息,对源数据集进行数据抽取,得到所述具备私密属性的数据集。
[0012]上述方案中,所述分别对所述时序数据集及所述非时序数据集进行关联规则检测,得到携带时间属性的时序关联规则和未携带时间属性的非时序关联规则,包括:
[0013]获取所述时序数据集中满足第一支持度阈值的第一频繁项集,以及所述非时序数据集中满足第二支持度阈值的第二频繁项集;
[0014]基于所述第一频繁项集生成满足第一置信度阈值的时序关联规则,所述时序关联规则携带相关联的时间属性及事件属性;
[0015]基于所述第二频繁项集生成满足第二置信度阈值的非时序关联规则,所述非时序关联规则携带事件属性。
[0016]上述方案中,所述在所述时序数据集中添加构造的伪时序数据,包括:
[0017]基于支持度和/或置信度,确定所述时序数据集的数据分布;
[0018]基于所述数据分布,在所述时序数据集中添加对应所述私密属性的伪时序数据,
使得所述时序关联规则为非强关联规则。
[0019]上述方案中,所述在所述非时序数据集中添加构造的伪非时序数据,包括:
[0020]将所述非时序数据集划分为支持度和/或置信度满足预设条件的第一子数据集及不满足所述预设条件的第二子数据集;
[0021]在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据,在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据,使得所述非时序关联规则为非强关联规则。
[0022]上述方案中,所述在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据,在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据,包括:
[0023]基于支持度和/或置信度,确定所述第一子数据集的数据分布,以及所述第二子数据集的数据分布;
[0024]基于所述第一子数据集的数据分布,在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据;
[0025]基于所述第二子数据集的数据分布,在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据。
[0026]上述方案中,所述方法还包括:
[0027]计算添加有伪时序数据和/或伪非时序数据之后的数据集的冗余度;
[0028]当所述冗余度高于冗余度阈值时,对所述数据集中的数据进行清洗以删除冗余数据。
[0029]上述方案中,所述方法还包括:
[0030]获取所述数据集中强关联规则的数量、关联规则的数量以及特定时间段内变化的关联规则的数量,所述关联规则包括时序关联规则及非时序关联规则;
[0031]基于所述强关联规则的数量、关联规则的数量以及变化的关联规则的数量,计算目标参数的值;
[0032]所述目标参数,用于在取值大于目标参数阈值时,重新获取所述数据集,进行时序数据集和非时序数据集的划分,并执行所述关联规则检测、以及在时序数据集中伪时序数据的添加,和/或在非时序数据集中伪非时序数据的添加。
[0033]第二方面,本专利技术实施例提供了一种数据处理装置,所述装置包括:
[0034]获取单元,用于获取具备私密属性的数据集;
[0035]划分单元,用于基于数据所携带的时间属性将所述数据集划分为时序数据集和非时序数据集;
[0036]检测单元,用于分别对所述时序数据集及所述非时序数据集进行关联规则检测,得到携带时间属性的时序关联规则和/或未携带时间属性的非时序关联规则;
[0037]添加单元,用于在所述时序数据集中添加构造的伪时序数据,使得所述时序关联规则满足第一关联规则条件,和/或在所述非时序数据集中添加构造的伪非时序数据,使得所述非时序关联规则满足第二关联规则条件。
[0038]上述方案中,所述获取单元,具体用于确定所述私密属性所包括的属性信息;基于所述属性信息,对源数据集进行数据抽取,得到所述具备私密属性的数据集。
[0039]上述方案中,所述检测单元,具体用于获取所述时序数据集中满足第一支持度阈
值的第一频繁项集,以及所述非时序数据集中满足第二支持度阈值的第二频繁项集;
[0040]所述检测单元,具体用于基于所述第一频繁项集生成满足第一置信度阈值的时序关联规则,所述时序关联规则携带相关联的时间属性及事件属性;
[0041]所述检测单元,具体用于基于所述第二频繁项集生成满足第二置信度阈值的非时序关联规则,所述非时序关联规则携带事件属性。
[0042]上述方案中,所述添加单元,具体用于基于支持度和/或置信度,确定所述时序数据集的数据分布;
[0043]所述添加单元,具体用于基于所述数据分布,在所述时序数据集中添加对应所述私密属性的伪时序数据,使得所述时序关联规则为非强关联规则。
[0044]上述方案中,所述添加单元,具体用于将所述非时序数据集划分为支持度和/或置信度满足预设条件的第一子数据集及不满足所述预设条件的第二子数据集;
[0045]所述添加单元,具体用于在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据,在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据,使得所述非时序关联规则为非强关联规则。
[0046]上述方案中,所述添加单元,具体用于基于支持度和/或置信度,确定所述第一子数据集的数据分布,以及所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取具备私密属性的数据集;基于数据所携带的时间属性将所述数据集划分为时序数据集和非时序数据集;分别对所述时序数据集及所述非时序数据集进行关联规则检测,得到携带时间属性的时序关联规则和/或未携带时间属性的非时序关联规则;在所述时序数据集中添加构造的伪时序数据,使得所述时序关联规则满足第一关联规则条件,和/或在所述非时序数据集中添加构造的伪非时序数据,使得所述非时序关联规则满足第二关联规则条件。2.根据权利要求1所述的方法,其特征在于,所述获取具备私密属性的数据集,包括:确定所述私密属性所包括的属性信息;基于所述属性信息,对源数据集进行数据抽取,得到所述具备私密属性的数据集。3.根据权利要求1所述的方法,其特征在于,所述分别对所述时序数据集及所述非时序数据集进行关联规则检测,得到携带时间属性的时序关联规则和未携带时间属性的非时序关联规则,包括:获取所述时序数据集中满足第一支持度阈值的第一频繁项集,以及所述非时序数据集中满足第二支持度阈值的第二频繁项集;基于所述第一频繁项集生成满足第一置信度阈值的时序关联规则,所述时序关联规则携带相关联的时间属性及事件属性;基于所述第二频繁项集生成满足第二置信度阈值的非时序关联规则,所述非时序关联规则携带事件属性。4.根据权利要求1所述的方法,其特征在于,所述在所述时序数据集中添加构造的伪时序数据,包括:基于支持度和/或置信度,确定所述时序数据集的数据分布;基于所述数据分布,在所述时序数据集中添加对应所述私密属性的伪时序数据,使得所述时序关联规则为非强关联规则。5.根据权利要求1所述的方法,其特征在于,所述在所述非时序数据集中添加构造的伪非时序数据,包括:将所述非时序数据集划分为支持度和/或置信度满足预设条件的第一子数据集及不满足所述预设条件的第二子数据集;在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据,在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据,使得所述非时序关联规则为非强关联规则。6.根据权利要求5所述的方法,其特征在于,所述在所述第一子数据集中添加对应关联规则中先导类的伪非时序数据,在所述第二子数据集中添加对应关联规则中后继类的伪非时序数据,包括:基于支持度和/或置信度,确定所述第一子数据集的数据分布,以及所述第二子数据集的数据分布;基于所述第一子数据集的数据分布,在所述第一子数据集中添加对应关联规则中后继类的伪非时序数据;
基于所述第二子数据集的数据分布,在所述第二子数据集中添加对应关联规则中先导类的伪非时序数据。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:计算添加有伪时序数据和/或伪非时序数据之后的数据集的冗余度;当所述冗余度高于冗余度阈值时,对所述数据集中的数据进行清洗以删除冗余数据。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述数据集中强关联规则的数量、关联规则的数量以及特定时间段内变化的关联规则的数量,所述关联规则包括时序关联规则及非时序关联规则;基于所述强关联规则的数量、关联规则的数量以及变化的关联规则的数量,计算目标参数的值;所述目标参数,用于在取值大于目标参数阈值时,重新获取所述数据集,进行时序数据集和非时序数据集的划分,并执行所述关联规则检测、以及在时序数据集中伪时序数据的添加,和/或在非时序数据集中伪非时序数据的添加。9.一种数据处理装置,其特征在于,所述装置包括:获取单元,用于获取具备私密属性的数据集;划分单元,用于基于数据所携带的时间属性将所...

【专利技术属性】
技术研发人员:周中民
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1