隐私数据采集比对方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:32971948 阅读:52 留言:0更新日期:2022-04-09 11:40
本发明专利技术实施例公开了隐私数据采集比对方法、装置、计算机设备及存储介质。所述方法包括:设置隐私声明中明确采集的个人隐私信息的数据识别规则;获取待识别数据;根据所述数据识别规则对所述待识别数据进行识别,以得到待采集数据字段;对所述待采集数据字段进行采集,以得到采集结果;将所述采集结果与隐私声明中明确采集的个人隐私信息进行比对,以得到比对结果;输出所述比对结果。通过实施本发明专利技术实施例的方法可实现自动采集应用系统隐私声明中明确会采集的个人隐私数据,且进行自动化比对,提高采集和比对效率以及准确率。提高采集和比对效率以及准确率。提高采集和比对效率以及准确率。

【技术实现步骤摘要】
隐私数据采集比对方法、装置、计算机设备及存储介质


[0001]本专利技术涉及数据采集方法,更具体地说是指隐私数据采集比对方法、装置、计算机设备及存储介质。

技术介绍

[0002]应用系统作为用户数据收集的主要入口,近年来其个人信息保护问题引发社会的广泛关注。用户个人信息泄漏、信息过度收集使用、权限滥用等问题严重威胁了广大用户的切身利益。隐私声明需采集的数据使用规则不清、采集行为不合理、收集范围超标等现象的存在,将用户推入隐私与便利的两难选择,其用户个人隐私信息保护工作面临严峻的挑战。
[0003]现有的个人隐私数据的采集和比对的流程包括:首先使用系统全量采集应用系统数据,人工介入去梳理隐私声明中明确需采集的个人隐私信息,最后人工比对其梳理的结果,整个过程耗时耗力,最终的比对结果也会存在偏差。
[0004]因此,有必要设计一种新的方法,实现自动采集应用系统隐私声明中明确会采集的个人隐私数据,且进行自动化比对,提高采集和比对效率以及准确率。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的缺陷,提供隐私数据采集比对方法、装置、计算机设备及存储介质。
[0006]为实现上述目的,本专利技术采用以下技术方案:隐私数据采集比对方法,包括:
[0007]设置隐私声明中明确采集的个人隐私信息的数据识别规则;
[0008]获取待识别数据;
[0009]根据所述数据识别规则对所述待识别数据进行识别,以得到待采集数据字段;
[0010]对所述待采集数据字段进行采集,以得到采集结果;
[0011]将所述采集结果与隐私声明中明确采集的个人隐私信息进行比对,以得到比对结果;
[0012]输出所述比对结果。
[0013]其进一步技术方案为:所述根据所述数据识别规则对所述待识别数据进行识别,以得到待采集数据字段,包括:
[0014]将所述待识别数据输入至识别模型内进行个人隐私数据识别,以得到识别结果;
[0015]将所述待识别数据与预设的数据识别策略进行匹配,以得到匹配分值;
[0016]根据所述匹配分值以及所述识别结果确定数据类别;
[0017]判断所述数据类别是否是个人隐私数据;
[0018]若所述数据类别是个人隐私数据,则确定所述待识别数据属于个人隐私数据的具体字段,以得到待采集数据字段。
[0019]其进一步技术方案为:所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的。
[0020]其进一步技术方案为:所述对所述待采集数据字段进行采集,以得到采集结果,包括:
[0021]采用字节码增强技术对所述待采集数据字段进行采集,以得到采集结果。
[0022]其进一步技术方案为:所述将所述采集结果与隐私声明中明确采集的个人隐私信息进行比对,以得到比对结果,包括:
[0023]采用大数据全文检索方法对所述采集结果与隐私声明中明确采集的个人隐私信息进行比对,以得到比对结果。
[0024]本专利技术还提供了隐私数据采集比对装置,包括:
[0025]规则设置单元,用于设置隐私声明中明确采集的个人隐私信息的数据识别规则;
[0026]待识别数据获取单元,用于获取待识别数据;
[0027]识别单元,用于根据所述数据识别规则对所述待识别数据进行识别,以得到待采集数据字段;
[0028]采集单元,用于对所述待采集数据字段进行采集,以得到采集结果;
[0029]比对单元,用于将所述采集结果与隐私声明中明确采集的个人隐私信息进行比对,以得到比对结果;
[0030]输出单元,用于输出所述比对结果。
[0031]其进一步技术方案为:所述识别单元包括:
[0032]模型识别子单元,用于将所述待识别数据输入至识别模型内进行个人隐私数据识别,以得到识别结果;
[0033]匹配子单元,用于将所述待识别数据与预设的数据识别策略进行匹配,以得到匹配分值;
[0034]类别确定子单元,用于根据所述匹配分值以及所述识别结果确定数据类别;
[0035]类别判断子单元,用于判断所述数据类别是否是个人隐私数据;
[0036]字段确定子单元,用于若所述数据类别是个人隐私数据,则确定所述待识别数据属于个人隐私数据的具体字段,以得到待采集数据字段。
[0037]其进一步技术方案为:所述采集单元,用于采用字节码增强技术对所述待采集数据字段进行采集,以得到采集结果。
[0038]本专利技术还提供了一种计算机设备,,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
[0039]本专利技术还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
[0040]本专利技术与现有技术相比的有益效果是:本专利技术通过设置数据识别规则,对待识别数据进行识别,明确待识别数据内的待采集数据字段,并对该字段进行自动采集,并将采集结果与隐私声明中明确采集的个人隐私信息进行比对,实现自动采集应用系统隐私声明中明确会采集的个人隐私数据,且进行自动化比对,提高采集和比对效率以及准确率。
[0041]下面结合附图和具体实施例对本专利技术作进一步描述。
附图说明
[0042]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的
附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0043]图1为本专利技术实施例提供的隐私数据采集比对方法的应用场景示意图;
[0044]图2为本专利技术实施例提供的隐私数据采集比对方法的流程示意图;
[0045]图3为本专利技术实施例提供的隐私数据采集比对方法的子流程示意图;
[0046]图4为本专利技术实施例提供的隐私数据采集比对装置的示意性框图;
[0047]图5为本专利技术实施例提供的隐私数据采集比对装置的识别单元的示意性框图;
[0048]图6为本专利技术实施例提供的计算机设备的示意性框图。
具体实施方式
[0049]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0050]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0051]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.隐私数据采集比对方法,其特征在于,包括:设置隐私声明中明确采集的个人隐私信息的数据识别规则;获取待识别数据;根据所述数据识别规则对所述待识别数据进行识别,以得到待采集数据字段;对所述待采集数据字段进行采集,以得到采集结果;将所述采集结果与隐私声明中明确采集的个人隐私信息进行比对,以得到比对结果;输出所述比对结果。2.根据权利要求1所述的隐私数据采集比对方法,其特征在于,所述根据所述数据识别规则对所述待识别数据进行识别,以得到待采集数据字段,包括:将所述待识别数据输入至识别模型内进行个人隐私数据识别,以得到识别结果;将所述待识别数据与预设的数据识别策略进行匹配,以得到匹配分值;根据所述匹配分值以及所述识别结果确定数据类别;判断所述数据类别是否是个人隐私数据;若所述数据类别是个人隐私数据,则确定所述待识别数据属于个人隐私数据的具体字段,以得到待采集数据字段。3.根据权利要求2所述的隐私数据采集比对方法,其特征在于,所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的。4.根据权利要求1所述的隐私数据采集比对方法,其特征在于,所述对所述待采集数据字段进行采集,以得到采集结果,包括:采用字节码增强技术对所述待采集数据字段进行采集,以得到采集结果。5.根据权利要求1所述的隐私数据采集比对方法,其特征在于,所述将所述采集结果与隐私声明中明确采集的个人隐私信息进行比对,以得到比对结果,包括:采用大数据全文检索方法对所述采集结果与隐私声明中明确采集的个人隐私信息进行比对,以得到比对结果。...

【专利技术属性】
技术研发人员:路成肖茂林
申请(专利权)人:深圳红途科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1