System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据敏感度评估方法、装置、计算机设备及存储介质制造方法及图纸_技高网

一种数据敏感度评估方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:40610916 阅读:6 留言:0更新日期:2024-03-12 22:18
本发明专利技术涉及数据处理技术领域,具体涉及一种数据敏感度评估方法、装置、计算机设备及存储介质。方法包括:获取待评估数据;基于信息熵和信息增益率对待评估数据进行过滤和特征提取;基于对数据特征的预定义确定数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数;基于由数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数确定的组合熵度量确定数据特征的敏感度。通过实施本发明专利技术,数据进行过滤和特征提取,能够减少冗余和不稳定特征,降低特征维度和复杂度。同时,结合数据可用性、数据关联性和数据质量计算敏感度,考虑到了不同属性信息所具有的敏感程度差异,提高了数据敏感度计算的鲁棒性。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体涉及一种数据敏感度评估方法、装置、计算机设备及存储介质


技术介绍

1、近年来,随着各行各业线上业务的快速发展,其业务系统所生产和管理的数据种类也越来越多,其中不乏高价值的敏感数据,如用户手机号,身份证等信息。伴随着大数据技术的兴起,大数据平台中存储着大量的敏感信息,如何保障大数据环境下,结构化和非结构化敏感信息的安全,构建业务数据的敏感性定义、分级和分类框架,满足相应的审计要求,在保障敏感信息安全的情况下完成数据敏感性分析及评估业务,是急需解决的问题。

2、电力营销线上合作渠道是电力公司通过第三方单位拓展业务渠道的重要手段,也是业务数据交互共享的主要通道。电力公司合作渠道方包括有金融机构、三方非金融代缴代扣机构、公共事业单位、网上国网等内外部渠道,因此在进行各种业务交易时,会涉及到大量敏感信息,如用户个人信息、交易支付细节等。对业务交易中的敏感数据进行安全管理及隐私保护至关重要,但是线上合作渠道中流通着海量的数据,各业务数据也涉及各种各样的属性信息,包括可公开的信息、敏感信息,目前,供电企业并未对业务数据进行敏感度评估与分类,所以其敏感数据的安全管理与维护难以切实保障。基于此,如何高效且有效地对敏感数据进行安全管理及维护成为了一类重要课题。

3、现有问题包括:在实际工作中,敏感属性可能同时存在多个,经典的针对单一敏感属性的数据保护模型,只是考虑了数据单一属性的敏感程度,忽视了数据不同属性信息所具有的敏感程度差异,对不同的敏感信息提供相同程度的数据保护,带来了可能的保护程度与实际所需不匹配的情况(即对于较不敏感的数据进行过度保护,对敏感程度较高的数据保护程度不足)。针对电力敏感数据的管理与维护,目前仍需要探索新的思路与方法以更好地解决现有问题。


技术实现思路

1、有鉴于此,本专利技术提供了一种数据敏感度评估方法、装置、计算机设备及存储介质,以解决如何对敏感数据进行管理和维护的问题。

2、第一方面,本专利技术提供了一种数据敏感度评估方法,方法包括:获取待评估数据;基于信息熵和信息增益率对待评估数据进行过滤和特征提取,得到数据特征;基于对数据特征的预定义确定数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数;基于由数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数确定的组合熵度量确定数据特征的敏感度。

3、本专利技术实施例提供的数据敏感度评估方法,通过采用信息熵和信息增益率对待评估数据进行过滤和特征提取,能够减少冗余和不稳定特征,降低特征维度和复杂度。同时,结合数据的多维数据即数据可用性、数据关联性和数据质量,来计算数据的敏感程度,考虑到了数据不同属性信息所具有的敏感程度差异,提高了数据敏感度计算的鲁棒性。能够更为有效且准确地衡量数据的敏感度,解决了不同业务场景下多元合作主体对数据敏感性评估要求不一致的问题。

4、在一种可选的实施方式中,基于信息熵和信息增益率对待评估数据进行过滤和特征提取,得到数据特征,包括:计算待评估数据的信息熵;基于在不同类别上对信息熵的归一化的标准差确定渠道漂移指标;基于渠道漂移指标以及信息增益率对待评估数据进行过滤和特征提取,得到数据特征。

5、在一种可选的实施方式中,当待评估数据包括多个数据集时,基于在不同类别上对信息熵的归一化的标准差确定渠道漂移指标,包括:基于在不同类别上对信息熵的归一化确定相对条件不确定性;基于每个数据集的相对条件不确定性的标准差确定渠道漂移指标。

6、本实施例中,通对信息熵的归一化能够避免某一信息熵过大而造成数据不平衡的问题,同时通过标准差的计算使得渠道漂移指标能够衡量数据变化程度。

7、在一种可选的实施方式中,基于渠道漂移指标以及信息增益率对待评估数据进行过滤和特征提取,得到数据特征,包括:将渠道漂移指标作为预设指数函数的指数,根据信息增益率和预设指数函数的比值确定复合度量;根据复合度量对待评估数据进行过滤和特征提取,得到数据特征。

8、本实施例中,将渠道漂移指标作为预设指数函数的指数,并将预设指数函数作为区分度量的惩罚因子,当做分母,信息增益率作为分子确定复合度量,其中预设指数函数作为分母能够避免分母为零值时,漂移值的扩大,通过根据信息增益率和预设指数函数的比值确定复合度量,能够过滤出有识别能力且稳定性高的特征。

9、在一种可选的实施方式中,预定义包括表和属性、显示标识符属性、准标识符属性、敏感属性和事务数据集;基于对数据特征的预定义确定数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数,包括:根据访问预设属性事务数据集的次数确定数据可用性概率质量函数;根据任意两个事务数据集同时被访问的次数确定数据关联性概率质量函数;根据事务数据集数据项的条目数确定数据质量的概率质量函数。

10、在一种可选的实施方式中,基于由数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数确定的组合熵度量确定数据特征的敏感度,包括:基于数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数对应的信息熵确定组合熵度量;基于组合熵度量确定数据特征的敏感度。

11、本实施例中,通过预定义,能够便于后续函数的理解和确定,同时,通过数据可用性、数据关联性和数据质量三个方面确定组合熵度量进行敏感度评估,能够更为有效且准确地衡量数据的敏感度。

12、在一种可选的实施方式中,在基于信息熵和信息增益率对待评估数据进行过滤和特征提取之前,方法还包括:对待评估数据进行归一化和标准化预处理。

13、本实施例中,通过对数据的预处理,能够使得预处理后的数据之间便于对比评价,同时保持数据中的有用信息。

14、第二方面,本专利技术提供了一种数据敏感度评估装置,装置包括:数据获取模块,用于获取待评估数据;特征提取模块,用于基于信息熵和信息增益率对待评估数据进行过滤和特征提取,得到数据特征;函数确定模块,用于基于对数据特征的预定义确定数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数;敏感度评估模块,用于基于由数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数确定的组合熵度量确定数据特征的敏感度。

15、在一种可选的实施方式中,特征提取模块包括:信息熵计算模块,用于计算待评估数据的信息熵;指标确定模块,用于基于在不同类别上对信息熵的归一化的标准差确定渠道漂移指标;提取子模块,用于基于渠道漂移指标以及信息增益率对待评估数据进行过滤和特征提取,得到数据特征。

16、在一种可选的实施方式中,当待评估数据包括多个数据集时,指标确定模块具体用于:基于在不同类别上对信息熵的归一化确定相对条件不确定性;基于每个数据集的相对条件不确定性的标准差确定渠道漂移指标。

17、在一种可选的实施方式中,提取子模块用于:将渠道漂移指标作为预设指数函数的指数,根据信息增益率和预设指数函本文档来自技高网...

【技术保护点】

1.一种数据敏感度评估方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,基于信息熵和信息增益率对待评估数据进行过滤和特征提取,得到数据特征,包括:

3.根据权利要求2所述的方法,其特征在于,当待评估数据包括多个数据集时,基于在不同类别上对信息熵的归一化的标准差确定渠道漂移指标,包括:

4.根据权利要求2所述的方法,其特征在于,基于所述渠道漂移指标以及信息增益率对待评估数据进行过滤和特征提取,得到数据特征,包括:

5.根据权利要求1所述的方法,其特征在于,预定义包括表和属性、显示标识符属性、准标识符属性、敏感属性和事务数据集;基于对数据特征的预定义确定数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数,包括:

6.根据权利要求2所述的方法,其特征在于,基于由数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数确定的组合熵度量确定数据特征的敏感度,包括:

7.根据权利要求1所述的方法,其特征在于,在基于信息熵和信息增益率对待评估数据进行过滤和特征提取之前,所述方法还包括:

8.一种数据敏感度评估装置,其特征在于,所述装置包括:

9.根据权利要求8所述的装置,其特征在于,特征提取模块包括:信息熵计算模块,用于计算待评估数据的信息熵;指标确定模块,用于基于在不同类别上对信息熵的归一化的标准差确定渠道漂移指标;提取子模块,用于基于渠道漂移指标以及信息增益率对待评估数据进行过滤和特征提取,得到数据特征。

10.根据权利要求9所述的装置,其特征在于,当待评估数据包括多个数据集时,指标确定模块具体用于:基于在不同类别上对信息熵的归一化确定相对条件不确定性;基于每个数据集的相对条件不确定性的标准差确定渠道漂移指标。

11.根据权利要求9所述的装置,其特征在于,提取子模块具体用于:将渠道漂移指标作为预设指数函数的指数,根据信息增益率和预设指数函数的比值确定复合度量;根据复合度量对待评估数据进行过滤和特征提取,得到数据特征。

12.根据权利要求8所述的装置,其特征在于,预定义包括表和属性、显示标识符属性、准标识符属性、敏感属性和事务数据集;函数确定模块具体用于:根据访问预设属性事务数据集的次数确定数据可用性概率质量函数;根据任意两个事务数据集同时被访问的次数确定数据关联性概率质量函数;根据事务数据集数据项的条目数确定数据质量的概率质量函数。

13.根据权利要求9所述的装置,其特征在于,敏感度评估模块具体用于:基于数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数对应的信息熵确定组合熵度量;基于组合熵度量确定数据特征的敏感度。

14.根据权利要求8所述的装置,其特征在于,装置还包括:预处理模块,用于对待评估数据进行归一化和标准化预处理。

15.一种计算机设备,其特征在于,包括:

16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的数据敏感度评估方法。

...

【技术特征摘要】

1.一种数据敏感度评估方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,基于信息熵和信息增益率对待评估数据进行过滤和特征提取,得到数据特征,包括:

3.根据权利要求2所述的方法,其特征在于,当待评估数据包括多个数据集时,基于在不同类别上对信息熵的归一化的标准差确定渠道漂移指标,包括:

4.根据权利要求2所述的方法,其特征在于,基于所述渠道漂移指标以及信息增益率对待评估数据进行过滤和特征提取,得到数据特征,包括:

5.根据权利要求1所述的方法,其特征在于,预定义包括表和属性、显示标识符属性、准标识符属性、敏感属性和事务数据集;基于对数据特征的预定义确定数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数,包括:

6.根据权利要求2所述的方法,其特征在于,基于由数据可用性概率质量函数、数据关联性概率质量函数以及数据质量的概率质量函数确定的组合熵度量确定数据特征的敏感度,包括:

7.根据权利要求1所述的方法,其特征在于,在基于信息熵和信息增益率对待评估数据进行过滤和特征提取之前,所述方法还包括:

8.一种数据敏感度评估装置,其特征在于,所述装置包括:

9.根据权利要求8所述的装置,其特征在于,特征提取模块包括:信息熵计算模块,用于计算待评估数据的信息熵;指标确定模块,用于基于在不同类别上对信息熵的归一化的标准差确定渠道漂移指标;提取子模块,用于基于渠道漂移指标以及信息增益率对待评估数据进行过滤和特征提取,得到...

【专利技术属性】
技术研发人员:郭骞俞庚申高鹏赵磊马玉龙
申请(专利权)人:国网智能电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1