This application provides a method and device for classifying privacy data based on large data, which can solve the problem of omission and inaccuracy of classifying privacy data in the existing technology, and can not quickly perceive changes in public sensitivity to privacy data, resulting in leakage of privacy data affecting information security. The method includes: extracting a plurality of high frequency keywords from the privacy data to be processed, generating a set of high frequency words from the keywords above the first preset threshold, determining the privacy classification of the privacy data to be processed based on the set of high frequency words, and classifying and classifying the privacy based on the collected large data. In data, the keyword frequency above the second preset threshold establishes a high-frequency word matrix, and classifies the privacy data to be processed according to the high-frequency word matrix and the privacy classification of the privacy data to be processed, so as to obtain the privacy classification of the privacy data to be processed.
【技术实现步骤摘要】
一种基于大数据的隐私数据分级方法和装置
本申请涉及数据处理
,具体而言,涉及一种基于大数据的隐私数据分级方法和装置。
技术介绍
随着互联网和大数据技术的发展,隐私数据安全已经成为时下人们最为关注的问题之一。数据传递的日益便捷化,能够方便生活之外,还能够创造巨大生产价值,但是,出同样由于数据传递的便捷,数据中的隐私数据在传递过程中也可能带来私密信息泄露,存在安全隐患。因此,隐私数据的保护越来越受到人们重视,而基于大数据的隐私数据的分类分级技术是隐私保护的关键技术之一。当前对隐私数据保护的研究,主要集中于对隐私属性及其分类的研究和基本分类或分级后的隐私数据保护的研究,而对隐私数据分类分级的手段,还基本停留在人工设定隐私数据的种类或等级。由于隐私数据的复杂性,人工分类分级存在不能及时响应,认识的局限性以及偏差,容易导致分类遗漏和分级不准,也无法快速感知公众对隐私数据敏感度的变化,导致一些已经不再敏感或某些因突发事件而敏感度急升的信息,不能自适应的调整隐私数据的分类分级,造成数据不能充分变现,以上因素都可能导致隐私数据泄露等信息安全事故。
技术实现思路
有鉴于此,本申请的目的在于提供一种基于大数据的隐私数据分级方法和装置,用于解决现在技术中对隐私数据的分类遗漏和分级不准,也无法快速感知公众对隐私数据敏感度的变化,导致隐私数据泄露影响信息安全的问题。第一方面,本申请实施例提供了一种基于大数据的隐私数据分级方法,包括:由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的所述关键词生成高频词集合;基于所述高频词集合确定所述待处理隐私数据的隐私分类;基于采 ...
【技术保护点】
1.一种基于大数据的隐私数据分级方法,其特征在于,包括:由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的所述关键词生成高频词集合;基于所述高频词集合确定所述待处理隐私数据的隐私分类;基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵;以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的隐私分级。
【技术特征摘要】
1.一种基于大数据的隐私数据分级方法,其特征在于,包括:由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的所述关键词生成高频词集合;基于所述高频词集合确定所述待处理隐私数据的隐私分类;基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵;以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的隐私分级。2.根据权利要求1所述的方法,其特征在于,所述由所述待处理隐私数据中提取多个高频的所述关键词,取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合,包括:通过词频TF技术由所述待处理隐私数据中提取多个高频的所述关键词;通过逆文件频率IDF技术由提取到的所述关键词中,取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合。3.根据权利要求1所述的方法,其特征在于,所述基于所述高频词集合确定所述待处理隐私数据的隐私分类,包括:采取朴素贝叶斯方法将所述高频词集合中的所述关键词作为属性对所述待处理隐私数据进行分类,确定所述待处理隐私数据的所述隐私分类。4.根据权利要求1所述的方法,其特征在于,所述基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵,包括:根据词频在所述第二预设阈值之上的所述关键词建立高频词词库;以所述高频词词库中的每一个所述关键词为例元素,以所述隐私数据为行元素建立所述高频词矩阵;所述高频词矩阵的矩阵元素为所在行的所述隐私数据是否包含所述矩阵元素所在列的所述关键词,若是则所述矩阵元素为1,若否则所述矩阵元素为0。5.根据权利要求4所述的方法,其特征在于,所述以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的所述隐私分级,包括:采取支持向量机方法,以所述高频词矩阵中的所述矩阵元素作为输入,结合所述待处理隐私数据的所述隐私分类...
【专利技术属性】
技术研发人员:刘晓鹏,张志群,刘智国,朱广宇,杨丰源,孙浩楠,李建忠,赵云龙,唐球,卢凯,陈波,秦媛媛,张松清,张宏斌,于增明,
申请(专利权)人:中国电子信息产业集团有限公司第六研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。