一种面向大数据环境隐私信息防泄露自动识别方法及系统技术方案

技术编号:21141639 阅读:27 留言:0更新日期:2019-05-18 05:18
本公开涉及一种面向大数据环境隐私信息防泄露自动识别方法及系统,所述方法包括:筛选关键词、判定关键词自动提取;根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。本发明专利技术实现简单,针对数据采集或数据流通的输出口面临海量数据的情况,极大程度减少隐私信息判定模块判定数据量,提升了隐私信息的判定准确率;实现了文本关键词的自动提取和隐私信息的深度分析、判定高准确率;实现了关键词列表与分类器的及时更新,进一步提升了隐私信息筛选的召回率和判定准确率。

An Automatic Recognition Method and System for Privacy Information Leakage Prevention in Large Data Environment

【技术实现步骤摘要】
一种面向大数据环境隐私信息防泄露自动识别方法及系统
本专利技术涉及一种面向大数据环境隐私信息防泄露自动识别方法及系统。
技术介绍
目前,随着政府数据开放共享进程的日益加快以及大数据在政务、交通、旅游等领域的广泛应用,政府、企业等数据提供者面临隐私信息泄露的严峻问题和挑战。可以说,隐私信息泄露已经成为制约大数据开放共享的瓶颈,并进一步限制了大数据产业的发展。为保障政务、交通、旅游等领域数据开放共享进程中,用户隐私不被泄露,国家出台了一系列信息安全相关的法律法规,例如“网络安全法”、“保密法”、“中华人民共和国政府信息公开条例”,这就要求数据在开放共享的过程中必须符合特定的条件,必须保证用户的隐私信息不被泄露。因此,要实现数据的开放共享,发挥数据资源的价值,又要保证用户的隐私信息安全,是目前信息安全
具有挑战性的问题。目前,面向大数据环境的隐私信息保护多采用访问控制、数据脱敏、密码技术三种方式:(1)访问控制:采用基于属性的访问控制技术,根据用户属性限制对隐私数据的访问,访问非授权用户访问隐私信息。该方法通过降低数据开放共享程度来保护用户隐私,限制了数据资源价值的挖掘。(2)数据脱敏:多采用置换、关键字提取等方式对隐私信息进行处理,在处理的同时数据存在一定程度的失真,难以分析挖掘出数据资源潜在的价值;采用自然语言处理技术、机器学习技术实现数据脱敏,可自动完善关键词库,保障隐私信息安全,但同样存在数据置换导致的数据失真问题,且计算效率低。(3)密码技术:采用同态加密技术对数据进行加密处理,保障数据流通过程中的隐私信息安全。该方法可保证用户隐私不被泄露,但计算的效率低,开销大;采用差分隐私、k-匿名等算法对开放共享的数据进行处理,保障隐私信息不被泄露。该方法能保证数据的真实性,但存在开放共享数据中信息的丢失,限制了数据资源价值的挖掘。综上所述:存在的问题:(1)已有的隐私数据保护方法大都是针对结构化数据,对于非结构化数据(如文本数据)很少涉及。(2)采用数据脱敏技术保护用户隐私安全,均存在一定程度的数据失真,且未考虑计算效率问题。(3)已有的隐私数据保护方法大都是直接对隐私数据进行处理,但是并未考虑到如何发现隐私信息,如何提高隐私信息的识别率。
技术实现思路
本专利技术所要解决的技术问题在于提供一种面向大数据环境隐私信息防泄露自动识别方法及系统,解决目前数据开放共享面临的隐私信息泄露问题,保障数据流通中隐私信息安全。为解决上述技术问题,本专利技术采用的技术方案是:一种面向大数据环境隐私信息防泄露自动识别方法,其特征在于,包括:筛选关键词、判定关键词自动提取;根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。本专利技术的另一目的在于提供一种面向大数据环境隐私信息防泄露自动识别系统,其特征在于,包括:关键词提取模块,用于筛选关键词、判定关键词自动提取;初步筛选模块:用于根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;隐私信息判定模块:用于对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。与现有技术相比,本专利技术具有以下有益的技术效果:实现简单,包括:筛选关键词、判定关键词自动提取;根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。针对数据采集或数据流通的输出口面临海量数据的情况,通过采用两层结构设计,在初步筛选模块可快速过滤掉肯定无隐私信息的内容,极大程度减少隐私信息判定模块判定数据量,提升了隐私信息的判定准确率;在筛选关键词、判定关键词生成阶段与隐私信息判定模块均采用了语义分析、机器学习、主题提取技术,实现了文本关键词的自动提取和隐私信息的深度分析、判定高准确率;在隐私信息判定模块设计了反馈机制,实现了关键词列表与分类器的及时更新,进一步提升了隐私信息筛选的召回率和判定准确率。附图说明图1为本专利技术面向大数据环境的隐私信息防泄露自动识别系统结构示意图;图2是本专利技术隐私信息关键词提取模块工作流程图;图3是本专利技术隐私信息判定模块反馈机制工作流程图。具体实施方式下面通过具体实施方案对本专利技术作进一步详细描述,但这些实施实例仅在于举例说明,并不对本专利技术的范围进行限定。请参照图1至图3,本专利技术的一种面向大数据环境隐私信息防泄露自动识别方法,其特征在于,包括:筛选关键词、判定关键词自动提取;根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。在一个实施例中,所述筛选关键词、判定关键词自动提取的步骤包括:根据实践经验、专家论证,完善指定领域的词典,形成领域词典;对指定领域人工标定的样本进行预处理,应用领域词典,对文本进行分词;提取文档主题,形成“主题”—“关键词”模型,以此训练分类器,生成筛选关键词、判定关键词。在一个实施例中,所述提取文档主题采用LDA主题提取算法。在一个实施例中,所述根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入的步骤包括:将采集获得的数据或参与数据流通的数据作为输入,传输至初步筛选模块;将输入数据与筛选关键词匹配,过滤掉跟隐私完全无关内容。在一个实施例中,进一步包括:存储筛选掉的数据。在一个实施例中,所述对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果的步骤还包括:提取输入文档主题,获取“主题”—“关键词”概率路径,与所述“主题”—“关键词”模型匹配,确定输入数据是否含有隐私信息。在一个实施例中,所述提取输入文档主题采用LDA主题提取算法。在一个实施例中,进一步包括:存储判定为不含隐私信息的输入数据。在一个实施例中,进一步包括:对判定的隐私信息进行人工标定。本专利技术还提供一种面向大数据环境隐私信息防泄露自动识别系统,包括:关键词提取模块,用于筛选关键词、判定关键词自动提取;初步筛选模块:用于根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;隐私信息判定模块:用于对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。在一个实施例中,所述面向大数据环境的隐私信息防泄露自动识别系统,实现方法中采用两级结构,提升了隐私信息判定的准确率;采用语义分析、机器学习、主题提取技术,实现了隐私信息的自动识别,所述的实现方法包括以下步骤:步骤1:根据指定领域数据特点,提供人工标定的样本,通过关键词提取模块形成筛选关键词、判定关键词;步骤2:将采集获得的数据或参与数据流通的数据作为输入,通过初步筛选模块过滤掉跟隐私完全无关,可以肯定无隐私信息的内容;步骤3:存储筛选掉的数据,以备数据流通;步骤4:将初步筛选后的数据作为输入,传输至隐私信息判定模块;步骤5:通过隐私信息判定模块,对筛选后的数据进行深度的内容分析,给出判定结果;步骤6:存储判定为不含隐私信息的输入数据,以备数据流通;步骤7:对判定的隐私信息进行人工标定,以此进一步更新步骤1中关键词列表,训练步骤1中分类器。步骤1所述的根据指定领域数据特点,提供人工标定的本文档来自技高网
...

【技术保护点】
1.一种面向大数据环境隐私信息防泄露自动识别方法,其特征在于,包括:筛选关键词、判定关键词自动提取;根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。

【技术特征摘要】
1.一种面向大数据环境隐私信息防泄露自动识别方法,其特征在于,包括:筛选关键词、判定关键词自动提取;根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。2.根据权利要求1所述的面向大数据环境隐私信息防泄露自动识别方法,其特征在于,所述筛选关键词、判定关键词自动提取的步骤包括:根据实践经验、专家论证,完善指定领域的词典,形成领域词典;对指定领域人工标定的样本进行预处理,应用领域词典,对文本进行分词;提取文档主题,形成“主题”—“关键词”模型,以此训练分类器,生成筛选关键词、判定关键词。3.根据权利要求2所述的面向大数据环境隐私信息防泄露自动识别方法,其特征在于,所述提取文档主题采用LDA主题提取算法。4.根据权利要求1所述的面向大数据环境隐私信息防泄露自动识别方法,其特征在于,所述根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入的步骤包括:将采集获得的数据或参与数据流通的数据作为输入,传输至初步筛选模块;将输入数据与筛选关键词匹配,过滤掉跟隐私完全无关内容。5.根据权利要求2所述的面向大数据环境隐...

【专利技术属性】
技术研发人员:杨玉龙
申请(专利权)人:贵州航天计量测试技术研究所
类型:发明
国别省市:贵州,52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1