当前位置: 首页 > 专利查询>复旦大学专利>正文

一种社交媒体中企业硬件设施敏感信息防护方法技术

技术编号:15329499 阅读:46 留言:0更新日期:2017-05-16 13:09
本发明专利技术属于隐私保护技术领域,具体为一种社交媒体中企业硬件设施敏感信息防护方法。本发明专利技术首先建立硬件基础设施信息库,然后通过构建硬件分类模型和硬件型号匹配算法确定社交媒体描述信息所涉及的硬件型号;最后通过获得的硬件型号有针对性地屏蔽或替换硬件描述信息中有可能泄露敏感信息的关键词。本发明专利技术能够根据不同的关键词敏感级别对关键词作出不同的处理,可扩展性较强。

Method for protecting sensitive information of enterprise hardware facilities in social media

The invention belongs to the technical field of privacy protection, in particular to a method for protecting sensitive information of enterprise hardware facilities in social media. The invention firstly established the hardware infrastructure information database, and then through the construction of hardware classification model and hardware model matching algorithm to determine the description of information involved in social media hardware model; finally get the hardware model to shield or replace the hardware description keywords may have information in the disclosure of sensitive information. The invention can process different key words according to different keyword sensitive levels, and has better expansibility.

【技术实现步骤摘要】
一种社交媒体中企业硬件设施敏感信息防护方法
本专利技术涉及一种社交媒体中企业硬件设施敏感信息防护方法,属于隐私保护

技术介绍
伴随着微博、网络论坛等传统的社交媒体以及微信、Facebook、Twitter等新兴的社交媒体的出现,人们进入了社交媒体时代。社交媒体的快速兴起加速了信息的流动,使得人与人之间的沟通变得越来越便捷。但不可忽视的是,社交媒体的广泛使用也带来了安全上的隐患,社交媒体用户也在有意或无意地对企业或机构的机密敏感信息造成了威胁,这些信息如果被商业机构或一些不法分子非善意获取、整合和利用,就会导致个人或机构隐私泄露[1]。移动设备用户可以很方便地依靠基于位置的服务获得自己的位置和相关的服务信息。尽管基于位置的服务为用户提供了极大的方便,但基于位置的服务需要先获取移动用户的位置信息才能对用户提供相应的服务,而基于位置的服务系统并不能保证服务器不泄露或非法使用用户的位置信息。因此基于位置的服务给用户的位置隐私保护带来了极大的挑战[2]。另外随着近年来大数据技术的兴起,基于大数据技术的隐私保护技术也越来越多,但总体上来说,当前国内外针对大数据安全与隐私保护的相关研究还不充分,只有通过技术手段与相关政策法规等相结合,才能更好地解决大数据安全与隐私保护问题[3]。随着互联网的广泛应用,国内外关于隐私保护或商业机密保护的研究也越来越多。隐私保护的主要研究方向包括通用的隐私保护技术、面向数据挖掘的隐私保护技术、基于隐私保护的数据发布原则、隐私保护算法等。通用的隐私保护技术致力于在较低应用层次上保护数据的隐私,一般通过引入统计模型和概率模型来实现;面向数据挖掘的隐私保护技术主要解决在高层数据应用中,如何根据不同数据挖掘操作的特性,实现对隐私的保护;基于隐私保护的数据发布原则是为了提供一种在各类应用可以通用的隐私保护方法,进而使得在此基础上设计的隐私保护算法也具有通用性。作为新兴的研究热点,隐私保护技术不论在理论研究还是实际应用方面,都具有非常重要的价值[4]。传统的敏感信息防护方法主要是基于关键词匹配的过滤方法,但这种方法忽视了上下文的语义环境,准确性较低,并且难以抵抗人工干扰,需要维护大量的关键词词典,人工成本较高。新兴的敏感信息防护方法包括基于自然语言处理和人工智能的防护方法,但这些技术尚处于研究阶段,并不能满足实际情况下对于过滤准确性的要求。
技术实现思路
本专利技术不从宏观的角度对敏感信息的防护进行研究,而是选取隐私或商业机密保护的某一具体方面,即社交媒体中企业硬件信息保护进行研究,给出了相应的信息保护方法。如前所述,社交媒体用户在发表言论的时候有可能导致隐私信息的泄露,同样地,当企业内部人员在微博或论坛等社交媒体上发表言论时也有可能导致企业内部硬件型号、配置等敏感信息的泄露。为了解决上述技术问题,本专利技术提出了一个新的角度,即结合了文本分类和语义替换的策略进行信息防护。其基本思路是首先通过分类确定信息发布者所描述的硬件类别和型号,然后从已经建立的硬件信息库中查找该型号硬件的所有属性信息,并根据该属性信息中的关键词去屏蔽或替换发布者所发布的硬件描述信息中的关键词。本专利技术的主要创新点在于构建了硬件信息库、设计了硬件信息分类模型和硬件型号匹配算法、给出了关键敏感词替换方法;本专利技术的技术方案具体介绍如下。本专利技术提供一种社交媒体中企业硬件设施敏感信息防护方法,具体步骤如下:步骤一、构建模型(1)硬件信息库的构建获取硬件信息,提取包括硬件大类、厂家和型号在内的多个层级、属性和属性值信息,组织成XML层次结构,构建硬件信息库;(2)对硬件信息库中的硬件描述信息进行中文分词(3)构建硬件分类模型和硬件型号匹配算法对硬件信息库中的硬件描述信息进行分词后,首先提取大类的特征信息,再在大类分类的基础上,提取厂家的特征信息,构建厂家分类模型;最后通过大类和厂家的类别信息,构建硬件型号匹配算法,确定硬件的型号;(4)构建关键词屏蔽替换模型针对每一个硬件大类,对硬件描述信息中出现的属性关键词进行敏感级别划分,并对不同敏感级别的关键词采取不同的处理方式,构建关键词屏蔽替换模型;其中,敏感级别划分为0、1、2、3和4;对于敏感级别为0的关键词不作处理,对于敏感级别为4的关键词直接用星号屏蔽,对于敏感级别为1、2、3的关键词通过关键词语义树进行处理;所述关键词语义树由硬件信息库中不同层级上的关键词按照XML结构关系构建;关键词语义树有四层,基于关键词语义树的替换策略如下:对于敏感级别为1的关键词,采用其父节点进行替换;对于敏感级别为2的关键词,采用其父节点的父节点进行替换;对于敏感级别为3的关键词直接利用根节点进行替换;步骤二、检测防护对输入的社交媒体内容进行分词处理后,根据步骤一中的硬件分类模型和硬件型号匹配算法确定归属大类、归属厂家和归属型号;确定型号后,再利用步骤一中构建的关键词屏蔽替换模型,将分词后的社交媒体内容中的属性关键词,利用对应的敏感级别和处理方式执行相应的动作,即屏蔽、替换和不作处理。本专利技术中,硬件分类模型中通过特征选择算法和分类算法对硬件大类和硬件厂家进行分类。本专利技术中,进行硬件大类的分类时,特征选择算法采用改进的信息增益的方法;具体计算公式如下:其中,t是特征,c表示类别,k表示类别个数,dis(t)表示特征t在类间的分布,它是特征t出现的样本数和所有样本总数的比值,P(t)表示特征出现的概率,P(c)表示类别出现的概率,P(c,t)表示特征和类别共同出现的概率,表示特征不出现的概率,表示特征不出现样本属于类别c的概率。分类算法采用改进的KNN的方法,其中的距离计算公式如下:其中,x代表未分类样本,y代表已分类样本,它们都是n维向量,向量中的每一维代表一个特征值,IG’(ti)代表第i个特征ti的信息增益值,x=(x1,x2,…,xn),y=(y1,y2,…,yn),d(x,y)表示x和y之间的距离,xiyi表示样本的第i个特征值。本专利技术中,进行硬件厂家的分类时,特征选择算法采用采用特征相似度的方法进行特征选择;采用类之间在特征上的相似度来选择特征,定义p个类之间在特征ti上的相似度,令这p个类分别是c1,c2,…,cp,定义这p个类在特征ti上的相似度为任意两个类在ti上的相似度和的平均值,即:如果则认为特征ti在这p个类之间相似度过大,不适合作为分类的特征,反之则可以作为分类的特征;分类算法采用改进的KNN的方法,其选择相似度的倒数作为特征的权重参与到KNN算法的计算中,以下是具体的KNN的距离计算公式:其中,ci表示第i个类别,p是类别总数,ti表示第i个特征,n为特征总数,x=(x1,x2,…,xn),y=(y1,y2,…,yn)分别表示未分类样本和已分类样本,它们具有n个特征值xiyi。本专利技术中,硬件型号匹配算法采用基于硬件型号集合的方法,即将相同属性值的硬件型号放到一个集合中,通过确定待匹配硬件在某些属性上的属性值,从而确定该硬件所属的型号集合,然后求这些集合的交集,得到该硬件所属的型号。本专利技术中,关键词语义树的最底层的叶子结点是硬件信息库中XML结构的最内层属性关键词的子特征词,语义树的倒数第二层对应的是硬件信息库中XML结构的最内层属性关键词,语义树的倒数第三层是XML结构的第二层本文档来自技高网
...
一种社交媒体中企业硬件设施敏感信息防护方法

【技术保护点】
一种社交媒体中企业硬件设施敏感信息防护方法,其特征在于,具体步骤如下:步骤一、构建模型(1)硬件信息库的构建获取硬件信息,提取包括硬件大类、厂家和型号在内的多个层级、属性和属性值信息,组织成XML层次结构,构建硬件信息库;(2)对硬件信息库中的硬件描述信息进行中文分词;(3)构建硬件分类模型和硬件型号匹配算法对硬件信息库中的硬件描述信息进行分词后,首先提取大类的特征信息,再在大类分类的基础上,提取厂家的特征信息,构建厂家分类模型;最后通过大类和厂家的类别信息,构建硬件型号匹配算法,确定硬件的型号;(4)构建关键词屏蔽替换模型针对每一个硬件大类,对硬件描述信息中出现的属性关键词进行敏感级别划分,并对不同敏感级别的关键词采取不同的处理方式,构建关键词屏蔽替换模型;其中,敏感级别划分为0、1、2、3和4;对于敏感级别为0的关键词不作处理,对于敏感级别为4的关键词直接屏蔽,对于敏感级别为1、2、3的关键词通过关键词语义树进行处理;所述关键词语义树由硬件信息库中不同层级上的关键词按照XML结构关系构建;关键词语义树有四层,基于关键词语义树的替换策略如下:对于敏感级别为1的关键词,采用其父节点进行替换;对于敏感级别为2的关键词,采用其父节点的父节点进行替换;对于敏感级别为3的关键词直接利用根节点进行替换;步骤二、检测防护对输入的社交媒体内容进行分词处理后,根据步骤一中的硬件分类模型和硬件型号匹配算法确定归属大类、归属厂家和归属型号;确定型号后,再利用步骤一中构建的关键词屏蔽替换模型,将分词后的社交媒体内容中的属性关键词,利用对应的敏感级别和处理方式执行相应的动作,即屏蔽、替换和不作处理。...

【技术特征摘要】
1.一种社交媒体中企业硬件设施敏感信息防护方法,其特征在于,具体步骤如下:步骤一、构建模型(1)硬件信息库的构建获取硬件信息,提取包括硬件大类、厂家和型号在内的多个层级、属性和属性值信息,组织成XML层次结构,构建硬件信息库;(2)对硬件信息库中的硬件描述信息进行中文分词;(3)构建硬件分类模型和硬件型号匹配算法对硬件信息库中的硬件描述信息进行分词后,首先提取大类的特征信息,再在大类分类的基础上,提取厂家的特征信息,构建厂家分类模型;最后通过大类和厂家的类别信息,构建硬件型号匹配算法,确定硬件的型号;(4)构建关键词屏蔽替换模型针对每一个硬件大类,对硬件描述信息中出现的属性关键词进行敏感级别划分,并对不同敏感级别的关键词采取不同的处理方式,构建关键词屏蔽替换模型;其中,敏感级别划分为0、1、2、3和4;对于敏感级别为0的关键词不作处理,对于敏感级别为4的关键词直接屏蔽,对于敏感级别为1、2、3的关键词通过关键词语义树进行处理;所述关键词语义树由硬件信息库中不同层级上的关键词按照XML结构关系构建;关键词语义树有四层,基于关键词语义树的替换策略如下:对于敏感级别为1的关键词,采用其父节点进行替换;对于敏感级别为2的关键词,采用其父节点的父节点进行替换;对于敏感级别为3的关键词直接利用根节点进行替换;步骤二、检测防护对输入的社交媒体内容进行分词处理后,根据步骤一中的硬件分类模型和硬件型号匹配算法确定归属大类、归属厂家和归属型号;确定型号后,再利用步骤一中构建的关键词屏蔽替换模型,将分词后的社交媒体内容中的属性关键词,利用对应的敏感级别和处理方式执行相应的动作,即屏蔽、替换和不作处理。2.根据权利要求1所述的敏感信息防护方法,其特征在于,硬件分类模型中通过特征选择算法和分类算法对硬件大类和硬件厂家进行分类。3.根据权利要求2所述的敏感信息防护方法,其特征在于,进行硬件大类的分类时,特征选择算法采用改进的信息增益的方法,具体计算公式如下:其中,t是特征,c表示类别,k表示类别个数,dis(t)表示特征t在类间的分布,它是特征t出现的样本数和所有样本总数的比值,P(t)表示特征出现的概率,P(c)表示类别...

【专利技术属性】
技术研发人员:曾剑平崔战伟
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1