应用于大数据匿名处理的决策分析方法及服务器技术

技术编号:36695812 阅读:25 留言:0更新日期:2023-02-27 20:07
本发明专利技术提供一种应用于大数据匿名处理的决策分析方法及服务器,能够利用两个相异的敏感文本抽取模型对初始用户数据描述档案的U个文本词向量关系网进行敏感文本抽取,得到第一用户数据描述档案及第二用户数据描述档案,利用第一用户数据描述档案及第二用户数据描述档案生成待匿名用户数据描述档案,能够综合考虑个体特征文本集、群体特征文本集以及模糊文本集之间的联系,以便在生成待匿名用户数据描述档案时确保个体隐私数据的完全包含以及部分可能导致个体隐私数据间接泄露的模糊文本数据的准确定位,所生成的待匿名用户数据描述档案能够作为数据匿名保护的可信决策依据,从而提高数据匿名保护的针对性和抗攻击性。而提高数据匿名保护的针对性和抗攻击性。而提高数据匿名保护的针对性和抗攻击性。

【技术实现步骤摘要】
应用于大数据匿名处理的决策分析方法及服务器


[0001]本专利技术涉及数据处理
,尤其涉及一种应用于大数据匿名处理的决策分析方法及服务器。

技术介绍

[0002]数据匿名化(data anonymization)是通过消除或加密将个人与存储数据联系起来的标识符,以保护私人或敏感信息的过程。数据匿名化还称为数据脱敏、假名化、去标识化等。换言之,数据脱敏主要是指对敏感数据处理的技术手段。当下,隐私泄露等用户个人隐私信息安全问题备受关注,数据匿名作为防范隐私泄露的重要手段之一,其面临的技术壁垒也不容忽视。传统的数据匿名技术通常采用一刀切的处理方式,例如仅对明显的个体隐私数据进行匿名处理,但是这种方式的抗攻击性较弱,容易导致隐私数据的间接泄露。

技术实现思路

[0003]本专利技术提供一种应用于大数据匿名处理的决策分析方法及服务器,为实现上述技术目的,本专利技术采用如下技术方案。
[0004]第一方面是一种应用于大数据匿名处理的决策分析方法,应用于匿名决策分析服务器,所述方法包括:获取初始用户数据描述档案,所述初始用户数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种应用于大数据匿名处理的决策分析方法,其特征在于,应用于匿名决策分析服务器,所述方法包括:获取初始用户数据描述档案,所述初始用户数据描述档案包括敏感关键词集;利用前馈神经网络语言模型对所述初始用户数据描述档案进行挖掘,得到U个文本词向量关系网,所述前馈神经网络语言模型包括U个词向量挖掘单元,每个词向量挖掘单元的原料是前一个词向量挖掘单元的输出,U为不小于1的整数;利用第一敏感文本抽取模型对所述U个文本词向量关系网进行处理,得到第一用户数据描述档案,所述第一用户数据描述档案包括第一个体特征文本集、第一群体特征文本集及模糊文本集,所述第一个体特征文本集对应于所述敏感关键词集所对应的文本集,所述模糊文本集为所述第一个体特征文本集与所述第一群体特征文本集的关联文本集;利用第二敏感文本抽取模型对所述U个文本词向量关系网进行处理,得到第二用户数据描述档案,所述第二用户数据描述档案包括第二个体特征文本集及第二群体特征文本集,所述第二个体特征文本集对应于所述敏感关键词集所对应的文本集;依据所述第一用户数据描述档案及所述第二用户数据描述档案,生成待匿名用户数据描述档案,所述待匿名用户数据描述档案包括所述敏感关键词集。2.如权利要求1所述的应用于大数据匿名处理的决策分析方法,其特征在于,所述第一敏感文本抽取模型包括U个字段类别关注单元及文本向量整理单元;所述利用第一敏感文本抽取模型对所述U个文本词向量关系网进行处理,得到第一用户数据描述档案,包括:利用所述U个字段类别关注单元对所述U个文本词向量关系网进行处理,生成U个混合词条向量集;利用所述文本向量整理单元对所述U个混合词条向量集中的V个混合词条向量集进行处理,得到第一词条向量分布,其中,V为小于U的整数;依据所述第一词条向量分布生成所述第一用户数据描述档案。3.如权利要求2所述的应用于大数据匿名处理的决策分析方法,其特征在于,每个所述文本词向量关系网对应于一个文本知识分布链;所述利用所述U个字段类别关注单元对所述U个文本词向量关系网进行处理,生成U个混合词条向量集,包括:将第n个文本知识分布链及第n

1个文本知识分布链作为第n个所述字段类别关注单元的原料,利用所述第n个字段类别关注单元输出第n个混合词条向量集,其中,所述第n个文本知识分布链对应于第n个文本词向量关系网,所述第n

1个文本知识分布链对应于第n

1个文本词向量关系网,n为大于1且小于U的整数;将第m个文本知识分布链作为第m个字段类别关注单元的原料,利用所述第m个字段类别关注单元输出第m个混合词条向量集,其中,所述第m个文本知识分布链对应于第m个文本词向量关系网,m为1或U。4.如权利要求2所述的应用于大数据匿名处理的决策分析方法,其特征在于,所述第一敏感文本抽取模型还包括检测模块,所述检测模块用于记录所述字段类别关注单元对文本词向量关系网的处理检测数G,G为不小于1的整数;所述U个文本词向量关系网对应U个文本知识分布链;所述利用所述U个字段类别关注单元对所述U个文本词向量关系网进行处理,生成U个混合词条向量集,包括:获取所述检测模块记录的所述处理检测数G;
当所述处理检测数G小于第一限值时,将第一文本知识分布链作为第一字段类别关注单元的原料,利用所述第一字段类别关注单元输出第一混合词条向量集,其中,所述第一文本知识分布链对应于第一文本词向量关系网,所述第一文本词向量关系网依据所述前馈神经网络语言模型中的第一词向量挖掘单元得到;将第二文本知识分布链及所述第一混合词条向量集作为第二字段类别关注单元的原料,利用所述第二字段类别关注单元输出第二混合词条向量集,其中,所述第二文本知识分布链对应于第二文本词向量关系网,所述第二文本词向量关系网依据所述前馈神经网络语言模型中的第二词向量挖掘单元得到;将第三文本知识分布链及所述第二混合词条向量集作为第三字段类别关注单元的原料,利用所述第三字段类别关注单元输出第三混合词条向量集,其中,所述第三文本知识分布链对应于第三文本词向量关系网,所述第三文本词向量关系网依据所述前馈神经网络语言模型中的第三词向量挖掘单元得到;将第四文本知识分布链作为第四字段类别关注单元的原料,利用所述第四字段类别关注单元输出第四混合词条向量集,其中,所述第四文本知识分布链对应于第四文本词向量关系网,所述第四文本词向量关系网依据所述前馈神经网络语言模型中的第四词向量挖掘单元得到。5.如权利要求4所述的应用于大数据匿名处理的决策分析方法,其特征在于,所述获取所述检测模块记录的所述处理检测数G之后,还包括:当所述处理检测数G不小于第一限值且小于第二限值时,将所述第一文本知识分布链及所述第三混合词条向量集,作为所述第一字段类别关注单元的原料,利用所述第一字段类别关注单元输出第五混合词条向量集;将所述第二文本知识分布链及所述第五...

【专利技术属性】
技术研发人员:潘航陈心
申请(专利权)人:合肥随铥互联网科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1