System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及识别敏感数据的领域,具体而言,涉及一种双维度识别敏感数据的方法、装置、设备和存储介质。
技术介绍
1、目前,现有的数据丢失预防实现方式主要依赖于数据本身的敏感度来进行敏感数据识别。一般而言,这些系统使用特定的算法或模型来识别和阻止敏感数据的非法传输。例如,一些常见的dlp系统可能会采用关键词、正则表达式、模式匹配、文档哈希指纹识别等方法来识别敏感数据。
2、有的dlp系统主要关注数据本身的敏感度,对于一些处在敏感度临界程度的中性数据,系统往往难以明确给出是否敏感的结论。
3、因此,如何准确的进行全方面敏感数据的识别,是一个需要解决的技术问题。
技术实现思路
1、本申请实施例的目的在于提供一种双维度识别敏感数据的方法,通过本申请的实施例的技术方案可以达到准确的进行全方面敏感数据的识别的效果。
2、第一方面,本申请实施例提供了一种双维度识别敏感数据的方法,包括,通过主题模型识别待识别文档的主题词,确定待识别文档的敏感度;通过预设的隐马尔可夫模型对用户的行为数据进行分析,得到行为异常概率;基于敏感度和行为异常概率,双维度识别敏感数据。
3、本申请在上述实施例中,通过识别待识别文档自身的敏感数据结合用户的行为数据分析得到的行为异常概率,双维度的分析数据,可以达到准确的进行全方面敏感数据的识别的效果。
4、在一些实施例中,在通过主题模型识别待识别文档的主题词,确定待识别文档的敏感度之前,还包括:采用预设机制采集用户的历史行
5、本申请在上述实施例中,通过对用户历史的行为数据进行处理和标注,得到的训练样本用来训练初始隐马尔可夫模型进行训练,得到隐马尔可夫模型可以准确的对用户行为数据进行分析得到行为异常概率。达到准确识别用户行为数据的效果。
6、在一些实施例中,在基于敏感度和行为异常概率,双维度识别敏感数据之后,还包括:初始化隐马尔可夫模型的初始概率向量、状态转移概率矩阵和发射概率矩阵;重复以下步骤,直到隐马尔可夫模型的参数达到预设参数或者重复次数达到预设次数时,完成隐马尔可夫模型的定时更新:使用前向和后向算法计算隐马尔可夫模型每一观测序列的前向概率和后向概率;根据每一观测序列和每一观测序列的前向概率和后向概率,通过预设算法更新隐马尔可夫模型的参数。
7、本申请在上述实施例中,可以定时的获取用户的行为数据通过算法更新隐马尔可夫模型的参数,达到定时更新隐马尔可夫模型的效果,可以不断的提升隐马尔可夫模型的识别精度。
8、在一些实施例中,重复以下步骤,直到隐马尔可夫模型的参数达到预设参数或者重复次数达到预设次数时,完成隐马尔可夫模型的更新,包括:重复以下步骤,每次更新隐马尔可夫模型的参数之后,对隐马尔可夫模型进行评估和验证;直到隐马尔可夫模型的参数达到预设参数或者重复次数达到预设次数时,完成隐马尔可夫模型的更新。
9、本申请在上述实施例中,每次更新隐马尔可夫模型的参数后,可以再次对更新后的隐马尔可夫模型进行评估和验证,达到提升隐马尔可夫模型的精度的效果。
10、在一些实施例中,通过主题模型识别待识别文档的主题词,确定待识别文档的敏感度,包括:通过主题模型识别待识别文档的主题词;通过词向量模型对主题词和预定义敏感词向量化,得到主题词向量和预定义敏感词向量;计算主题词向量和预定义敏感词向量的余弦相似度,得到敏感度。
11、本申请在上述实施例中,通过主题词向量和预定义敏感词向量可以确定主题词是否趋向于敏感词,进而根据相似度表示主题词的敏感度。
12、在一些实施例中,通过预设的隐马尔可夫模型对用户的行为数据进行分析,得到行为异常概率,包括:通过隐马尔可夫模型的前向算法计算行为数据产生行为异常的概率,得到行为异常概率。
13、本申请在上述实施例中,可以通过隐马尔可夫模型的算法计算用户行为数据为异常数据的概率,准确的得到行为异常概率。
14、在一些实施例中,基于敏感度和行为异常概率,双维度识别敏感数据,包括:对敏感度和行为异常概率进行数据丢失防护敏感数据识别,得到总敏感度评分;将总敏感度评分和预设评分阈值进行比较,完成双维度识别敏感数据。
15、本申请在上述实施例中,综合文档数据自身和用户行为的分数和预设评分阈值的比较,综合识别敏感数据。
16、第二方面,本申请实施例提供了一种双维度识别敏感数据的装置,包括:
17、确定模块,用于通过主题模型识别待识别文档的主题词,确定待识别文档的敏感度;
18、分析模块,用于通过预设的隐马尔可夫模型对用户的行为数据进行分析,得到行为异常概率;
19、识别模块,用于基于敏感度和行为异常概率,双维度识别敏感数据。
20、可选的,所述装置还包括:
21、训练模块,用于所述确定模块在通过主题模型识别待识别文档的主题词,确定待识别文档的敏感度之前,采用预设机制采集用户的历史行为数据;
22、对历史行为数据进行预处理,得到处理后的行为数据;
23、对处理后的行为数据进行行为标注,得到训练样本;
24、通过训练样本对初始隐马尔可夫模型进行训练,得到隐马尔可夫模型。
25、可选的,所述装置还包括:
26、更新模块,用于所述识别模块在基于敏感度和行为异常概率,双维度识别敏感数据之后,初始化隐马尔可夫模型的初始概率向量、状态转移概率矩阵和发射概率矩阵;
27、重复以下步骤,直到隐马尔可夫模型的参数达到预设参数或者重复次数达到预设次数时,完成隐马尔可夫模型的定时更新:
28、使用前向和后向算法计算隐马尔可夫模型每一观测序列的前向概率和后向概率;
29、根据每一观测序列和每一观测序列的前向概率和后向概率,通过预设算法更新隐马尔可夫模型的参数。
30、可选的,更新模块具体用于:
31、重复以下步骤,每次更新隐马尔可夫模型的参数之后,对隐马尔可夫模型进行评估和验证;
32、直到隐马尔可夫模型的参数达到预设参数或者重复次数达到预设次数时,完成隐马尔可夫模型的更新。
33、可选的,确定模块具体用于:
34、通过主题模型识别待识别文档的主题词;
35、通过词向量模型对主题词和预定义敏感词向量化,得到主题词向量和预定义敏感词向量;
36、计算主题词向量和预定义敏感词向量的余弦相似度,得到敏感度。
37、可选的,分析模块具体用于:
38、通过隐马尔可夫模型的前向算法计算行为数据产生行为异常的概率,得到行为异常概率。
39、可选的,识别模块具体用于:
40、对敏感度和行为异常概率进行数据丢失本文档来自技高网...
【技术保护点】
1.一种双维度识别敏感数据的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述通过主题模型识别待识别文档的主题词,确定所述待识别文档的敏感度之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,在所述基于所述敏感度和所述行为异常概率,双维度识别敏感数据之后,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述重复以下步骤,直到所述隐马尔可夫模型的参数达到预设参数或者重复次数达到预设次数时,完成所述隐马尔可夫模型的更新,包括:
5.根据权利要求1-4任一项所述的方法,其特征在于,所述通过主题模型识别待识别文档的主题词,确定所述待识别文档的敏感度,包括:
6.根据权利要求1-4任一项所述的方法,其特征在于,所述通过预设的隐马尔可夫模型对用户的行为数据进行分析,得到行为异常概率,包括:
7.根据权利要求1-4任一项所述的方法,其特征在于,所述基于所述敏感度和所述行为异常概率,双维度识别敏感数据,包括:
8.一种双维度识别敏感数据的装置,其特征在于,包括:<
...【技术特征摘要】
1.一种双维度识别敏感数据的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述通过主题模型识别待识别文档的主题词,确定所述待识别文档的敏感度之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,在所述基于所述敏感度和所述行为异常概率,双维度识别敏感数据之后,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述重复以下步骤,直到所述隐马尔可夫模型的参数达到预设参数或者重复次数达到预设次数时,完成所述隐马尔可夫模型的更新,包括:
5.根据权利要求1-4任一...
【专利技术属性】
技术研发人员:孙彦芬,姜珂,韦云川,万朝华,
申请(专利权)人:山石网科通信技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。