一种基于大数据的隐私数据分级方法和装置制造方法及图纸

技术编号:19343220 阅读:29 留言:0更新日期:2018-11-07 14:17
本申请提供了一种基于大数据的隐私数据分级方法和装置,用于解决现有技术中对隐私数据的分类遗漏和分级不准,也无法快速感知公众对隐私数据敏感度的变化,导致隐私数据泄露影响信息安全的问题。所述方法包括:由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的所述关键词生成高频词集合;基于所述高频词集合确定所述待处理隐私数据的隐私分类;基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵;以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的隐私分级。

A privacy data classification method and device based on big data

This application provides a method and device for classifying privacy data based on large data, which can solve the problem of omission and inaccuracy of classifying privacy data in the existing technology, and can not quickly perceive changes in public sensitivity to privacy data, resulting in leakage of privacy data affecting information security. The method includes: extracting a plurality of high frequency keywords from the privacy data to be processed, generating a set of high frequency words from the keywords above the first preset threshold, determining the privacy classification of the privacy data to be processed based on the set of high frequency words, and classifying and classifying the privacy based on the collected large data. In data, the keyword frequency above the second preset threshold establishes a high-frequency word matrix, and classifies the privacy data to be processed according to the high-frequency word matrix and the privacy classification of the privacy data to be processed, so as to obtain the privacy classification of the privacy data to be processed.

【技术实现步骤摘要】
一种基于大数据的隐私数据分级方法和装置
本申请涉及数据处理
,具体而言,涉及一种基于大数据的隐私数据分级方法和装置。
技术介绍
随着互联网和大数据技术的发展,隐私数据安全已经成为时下人们最为关注的问题之一。数据传递的日益便捷化,能够方便生活之外,还能够创造巨大生产价值,但是,出同样由于数据传递的便捷,数据中的隐私数据在传递过程中也可能带来私密信息泄露,存在安全隐患。因此,隐私数据的保护越来越受到人们重视,而基于大数据的隐私数据的分类分级技术是隐私保护的关键技术之一。当前对隐私数据保护的研究,主要集中于对隐私属性及其分类的研究和基本分类或分级后的隐私数据保护的研究,而对隐私数据分类分级的手段,还基本停留在人工设定隐私数据的种类或等级。由于隐私数据的复杂性,人工分类分级存在不能及时响应,认识的局限性以及偏差,容易导致分类遗漏和分级不准,也无法快速感知公众对隐私数据敏感度的变化,导致一些已经不再敏感或某些因突发事件而敏感度急升的信息,不能自适应的调整隐私数据的分类分级,造成数据不能充分变现,以上因素都可能导致隐私数据泄露等信息安全事故。
技术实现思路
有鉴于此,本申请的目的在于提供一种基于大数据的隐私数据分级方法和装置,用于解决现在技术中对隐私数据的分类遗漏和分级不准,也无法快速感知公众对隐私数据敏感度的变化,导致隐私数据泄露影响信息安全的问题。第一方面,本申请实施例提供了一种基于大数据的隐私数据分级方法,包括:由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的所述关键词生成高频词集合;基于所述高频词集合确定所述待处理隐私数据的隐私分类;基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵;以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的隐私分级。可选的,所述由所述待处理隐私数据中提取多个高频的所述关键词,取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合,包括:通过词频TF技术由所述待处理隐私数据中提取多个高频的所述关键词;通过逆文件频率IDF技术由提取到的所述关键词中,取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合。可选的,所述基于所述高频词集合确定所述待处理隐私数据的隐私分类,包括:采取朴素贝叶斯方法将所述高频词集合中的所述关键词作为属性对所述待处理隐私数据进行分类,确定所述待处理隐私数据的所述隐私分类。可选的,所述基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵,包括:根据词频在所述第二预设阈值之上的所述关键词建立高频词词库;以所述高频词词库中的每一个所述关键词为例元素,以所述隐私数据为行元素建立所述高频词矩阵;所述高频词矩阵的矩阵元素为所在行的所述隐私数据是否包含所述矩阵元素所在列的所述关键词,若是则所述矩阵元素为1,若否则所述矩阵元素为0。可选的,所述以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的所述隐私分级,包括:采取支持向量机方法,以所述高频词矩阵中的所述矩阵元素作为输入,结合所述待处理隐私数据的所述隐私分类和所述高频词矩阵中的所述隐私数据所述隐私分类的对应关系,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的所述隐私分级。本申请实施例中,通过大数据进行整理和统计,以已分类和已分级的所述隐私数据作为基础,建立所述高频词矩阵,从而对感知的所述待处理隐私数据进行自适应分类分级,减少分类遗漏和提高分级准确度,从而提高信息安全度。第二方面,本申请实施例提供一种基于大数据的隐私数据分级装置,包括:关键词提取模块,用于由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的所述关键词生成高频词集合;分类模块,用于基于所述高频词集合确定所述待处理隐私数据的隐私分类;矩阵模块,用于基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵;分级模块,用于以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的隐私分级。可选的,所述关键词提取模块,具体用于:通过词频TF技术由所述待处理隐私数据中提取多个高频的所述关键词;通过逆文件频率IDF技术由提取到的所述关键词中,取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合。可选的,所述分类模块,具体用于:采取朴素贝叶斯方法将所述高频词集合中的所述关键词作为属性对所述待处理隐私数据进行分类,确定所述待处理隐私数据的所述隐私分类。可选的,所述矩阵模块,具体用于:根据词频在所述第二预设阈值之上的所述关键词建立高频词词库;以所述高频词词库中的每一个所述关键词为例元素,以所述隐私数据为行元素建立所述高频词矩阵;所述高频词矩阵的矩阵元素为所在行的所述隐私数据是否包含所述矩阵元素所在列的所述关键词,若是则所述矩阵元素为1,若否则所述矩阵元素为0。可选的,所述分级模块,具体用于:采取支持向量机方法,以所述高频词矩阵中的所述矩阵元素作为输入,结合所述待处理隐私数据的所述隐私分类和所述高频词矩阵中的所述隐私数据所述隐私分类的对应关系,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的所述隐私分级。本申请实施例中,通过所述矩阵模块大数据进行整理和统计,以已分类和已分级的所述隐私数据作为基础,建立所述高频词矩阵,从而对所述关键词提取模块感知的所述待处理隐私数据,通过所述分类模块和所述分级模块进行自适应分类分级,减少分类遗漏和提高分级准确度,从而提高信息安全度。为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例提供的一种基于大数据的隐私数据分级方法的流程图;图2为本申请实施例提供的对隐私数据分类和分级后定期抽取数据属性更新的流程图;图3为本申请实施例提提供一种基于大数据的隐私数据分级装置的示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。如图1所述,本申请实施例提供了一种基于大数据的隐私数据分级方法,包括:101,由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的关键词生成高频词集合。102,基于高本文档来自技高网...

【技术保护点】
1.一种基于大数据的隐私数据分级方法,其特征在于,包括:由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的所述关键词生成高频词集合;基于所述高频词集合确定所述待处理隐私数据的隐私分类;基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵;以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的隐私分级。

【技术特征摘要】
1.一种基于大数据的隐私数据分级方法,其特征在于,包括:由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的所述关键词生成高频词集合;基于所述高频词集合确定所述待处理隐私数据的隐私分类;基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵;以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的隐私分级。2.根据权利要求1所述的方法,其特征在于,所述由所述待处理隐私数据中提取多个高频的所述关键词,取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合,包括:通过词频TF技术由所述待处理隐私数据中提取多个高频的所述关键词;通过逆文件频率IDF技术由提取到的所述关键词中,取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合。3.根据权利要求1所述的方法,其特征在于,所述基于所述高频词集合确定所述待处理隐私数据的隐私分类,包括:采取朴素贝叶斯方法将所述高频词集合中的所述关键词作为属性对所述待处理隐私数据进行分类,确定所述待处理隐私数据的所述隐私分类。4.根据权利要求1所述的方法,其特征在于,所述基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵,包括:根据词频在所述第二预设阈值之上的所述关键词建立高频词词库;以所述高频词词库中的每一个所述关键词为例元素,以所述隐私数据为行元素建立所述高频词矩阵;所述高频词矩阵的矩阵元素为所在行的所述隐私数据是否包含所述矩阵元素所在列的所述关键词,若是则所述矩阵元素为1,若否则所述矩阵元素为0。5.根据权利要求4所述的方法,其特征在于,所述以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的所述隐私分级,包括:采取支持向量机方法,以所述高频词矩阵中的所述矩阵元素作为输入,结合所述待处理隐私数据的所述隐私分类...

【专利技术属性】
技术研发人员:刘晓鹏张志群刘智国朱广宇杨丰源孙浩楠李建忠赵云龙唐球卢凯陈波秦媛媛张松清张宏斌于增明
申请(专利权)人:中国电子信息产业集团有限公司第六研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1