一种文档敏感度的计算方法和装置制造方法及图纸

技术编号:24331630 阅读:64 留言:0更新日期:2020-05-29 19:52
本发明专利技术公开了一种文档敏感度的计算方法,包括:获取待识别文档的价值元素,并将每一价值元素向量化,将符合预设的特征贡献度阈值的价值元素对应的价值元素向量进行向量拼接,得到所述待识别文档的目标价值元素向量;根据所述目标价值元素向量与预设文档的预设价值元素向量的相似度,计算所述待识别文档的相似度熵,进而计算所述待识别文档的敏感度。本发明专利技术实施例还公开了相应的文档敏感度的计算装置,实施本发明专利技术实施例,通过对文档的价值元素的识别,采用特征向量相似度的方法实现对敏感数据的识别与分析,实现对文档敏感度的计算,有效提高对文档敏感度计算的准确性,且计算方法简便。

A calculation method and device of document sensitivity

【技术实现步骤摘要】
一种文档敏感度的计算方法和装置
本专利技术涉及信息安全
,尤其涉及一种文档敏感度的计算方法和装置。
技术介绍
数据的保密性、完整性和可用性关系到国家安全、企业核心竞争力和个人隐私等多个方面,数据安全作为信息安全领域中的重要课题,正越来越受到关注。随着电子邮件、即时通讯、可移动存储介质的广泛应用,在提升人们工作效率的同时,也不可避免地扩展了数据泄漏的通道,加剧了用户对数据存储安全的担忧。当前,国内外很多学者已针对数据敏感信息的安全存储方法进行了大量研究,如针对数据敏感属性提出的基于数据安全需求的分级模型;面向结构化数据集的敏感属性识别与分级方法等等。然而,在实施本专利技术过程中,专利技术人发现现有技术至少存在如下问题:现有技术的敏感数据分级分类方法中,数据敏感属性是提前设置的,且大多是针对结构化数据集实现的,不适用于云计算各种半结构化或者非结构化数据的敏感识别与分级。
技术实现思路
本专利技术实施例的目的是提供一种文档敏感度的计算方法和装置,其通过对文档的价值元素的识别,实现对文档敏感度的计算,有效提高对文档敏感本文档来自技高网...

【技术保护点】
1.一种文档敏感度的计算方法,其特征在于,包括:/n获取待识别文档的价值元素,并将每一价值元素向量化,得到对应的价值元素向量;其中,所述价值元素包括所述待识别文档的元数据;/n将符合预设的特征贡献度阈值的价值元素对应的价值元素向量进行向量拼接,得到所述待识别文档的目标价值元素向量;/n根据所述目标价值元素向量与预设文档的预设价值元素向量的相似度,计算所述待识别文档的相似度熵;其中,所述相似度熵与所述相似度呈正相关;/n根据所述待识别文档的相似度熵,计算所述待识别文档的敏感度;其中,所述待识别文档的敏感度与所述相似度熵呈负相关。/n

【技术特征摘要】
1.一种文档敏感度的计算方法,其特征在于,包括:
获取待识别文档的价值元素,并将每一价值元素向量化,得到对应的价值元素向量;其中,所述价值元素包括所述待识别文档的元数据;
将符合预设的特征贡献度阈值的价值元素对应的价值元素向量进行向量拼接,得到所述待识别文档的目标价值元素向量;
根据所述目标价值元素向量与预设文档的预设价值元素向量的相似度,计算所述待识别文档的相似度熵;其中,所述相似度熵与所述相似度呈正相关;
根据所述待识别文档的相似度熵,计算所述待识别文档的敏感度;其中,所述待识别文档的敏感度与所述相似度熵呈负相关。


2.如权利要求1所述的文档敏感度的计算方法,其特征在于,所述根据所述目标价值元素向量与预设文档的预设价值元素向量的相似度,计算所述待识别文档的相似度熵,具体包括:
计算所述待识别文档的目标价值元素向量与预设文档集中每一预设文档的预设价值元素向量的相似度,并将所有所述目标价值元素向量与每一预设文档的预设价值元素向量的相似度之和作为所述待识别文档的相似度;
计算平台数据集中每一文档分别与每一所述预设文档的预设价值元素向量的相似度,并将所述平台数据集中所有文档分别与每一所述预设文档的预设价值元素向量的相似度的总和作为所述平台数据集的相似度;其中,所述平台数据集包括所述待识别文档;
根据所述待识别文档的相似度、所述平台数据集的相似度,通过以下计算公式计算所述待识别文档的相似度熵:



其中,H(dr)为所述待识别文档的相似度熵;为所述待识别文档的相似度,为所述平台数据集的相似度;m为所述预设文档的数量,k为所述平台数据集的文档数量。


3.如权利要求1所述的文档敏感度的计算方法,其特征在于,所述文档敏感度的计算方法还包括:
根据所述待识别文档的用户访问次数,计算所述待识别文档的使用熵;其中,所述使用熵与所述待识别文档的用户访问次数呈正相关;
根据所述待识别文档的来源可信度,计算所述待识别文档的质量熵;其中,所述质量熵与所述待识别文档的来源可信度呈正相关;
则,所述根据所述待识别文档的相似度熵,计算所述待识别文档的敏感度,具体包括:
计算所述待识别文档的相似度熵、使用熵和质量熵的乘积,作为所述待识别文档的组合熵;
根据所述待识别文档的组合熵,计算所述待识别文档的敏感度;其中,所述待识别文档的敏感度与所述组合熵呈负相关。


4.如权利要求3所述的文档敏感度的计算方法,其特征在于,所述根据所述待识别文档的用户访问次数,计算所述待识别文档的使用熵,具体包括:
获取每一用户访问所述待识别文档的次数,并计算所有用户访问所述待识别文档的次数之和,作为所述待识别文档的用户访问次数;
获取每一用户分别访问平台数据集中每一文档的次数,并计算所有用户分别访问所述平台数据集中每一文档的次数的总和,作为所述平台数据集的用户访问次数;其中,所述平台数据集包括所述待识别文档;
根据所述待识别文档的用户访问次数、所述平台数据集的用户访问次数,通过以下计算公式计算所述待识别文档的使用熵:



其中,H(cr)为所述待识别文档的使用熵;为所述待识别文档的用户访问次数,为所述平台数据集的用户访问次数;n为所述用户的数量,k为所述平台数据集的文档数量。


5.如权利要求3所述的文档敏感度的计算方法,其特征在于,所述根据所述待识别文档的来源可信度,计算所述待识别文档的质量熵,具体包括:
获取所述待识别文档在每一可信度因素下的来源可信度,并将所述待识别文档在所有可信度因素下的来源可信...

【专利技术属性】
技术研发人员:蒋仕宝
申请(专利权)人:广州杰赛科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1