一种智慧林业信息传输涉密脱敏系统技术方案

技术编号:38374475 阅读:11 留言:0更新日期:2023-08-05 17:36
本申请公开了一种智慧林业信息传输涉密脱敏系统,包括:接口模块、用户权限管理模块、脱敏规则管理模块和脱敏算法管理模块。本申请提供的一种智慧林业信息传输涉密脱敏系统,通过一种以磁性、词频、词长为参数的简便有效的文本特征提取方法,并通过智能自学习的方式确定阙值,判断文档是否属于敏感属于的方法,与传统人工确认阙值的方法相比具有更高的实用性、准确性和灵活性,实现了对数据的脱敏保密处理。处理。处理。

【技术实现步骤摘要】
一种智慧林业信息传输涉密脱敏系统


[0001]本申请涉及数据脱敏
,尤其涉及一种智慧林业信息传输涉密脱敏系统。

技术介绍

[0002]目前,防止数据泄露的方法大致可以分为三大类:安全审计类,安全控制类和文件加密类。其中,敏感数据的识别技术对于数据防泄露的安全控制起到很好的辅助作用。如果可以智能化识别传输的文档信息中哪些是敏感数据并加以保护,那么可以很大程度简化人工设置标识或者是访问控制规则的复杂度并且有效防止敏感数据的泄露。
[0003]目前对敏感数据的识别主要是对文本、web、图像、视频等文件格式的识别,主要广泛应用的是基于文本的数据防泄露,但是在以往的文本识别算法研究中,文本预处理过程较为复杂,也缺乏灵活的阙值确定机制。

技术实现思路

[0004]本申请提出了一种一种智慧林业信息传输涉密脱敏系统,具备智能确定阙值,且阙值更精确的优点,用以解决文本预处理过程较为复杂,也缺乏灵活的阙值确定机制问题。
[0005]为达到上述目的,本申请采用如下技术方案:一种智慧林业信息传输涉密脱敏系统,包括:接口模块、用户权限管理模块、脱敏规则管理模块和脱敏算法管理模块,
[0006]所述接口模块用于连接其他业务系统或者管理系统;
[0007]所述用户权限管理模块对用户在脱敏系统的查阅权限进行限定;
[0008]所述脱敏规则管理模块用于根据脱敏数据使用环境选择脱敏规则;
[0009]所述脱敏算法管理模块用于管理多种脱敏算法。
[0010]进一步,所述脱敏算法包括基于文本内容的敏感数据识别算法,其对敏感数据的识别过程如下:
[0011]步骤一、敏感数据文本库进行预处理和特征提取之后,通过TFIDF算法进行向量空间权值计算,形成数据特征向量;
[0012]步骤二、已知分类的文本库进行预处理和特征提取之后,通过TFIDF算法计算向量空间权值形成数据特征向量,与敏感数据形成的特征向量进行余弦计算,并统计学习,根据阙值确定方法;
[0013]步骤三、将待判断的未知分类的文档进行预处理和特征提取,通过TFIDF算法计算向量空间权值形成数据特征向量后,与敏感数据的特征向量进行余弦计算,将得到的余弦值与阙值进行比较,判断是否是敏感数据。
[0014]进一步,所述文本分类包括以下步骤:
[0015]步骤一、建立数据集,包含训练集和测试集;
[0016]步骤二、建立文本表示模型并进行文本特征选择;
[0017]步骤三、在训练集上进行机器学习,建立分类器;
[0018]训练集包含敏感文本库和已知分类文本库,所述敏感文本库为包含敏感数据文档
的词库,所述分类文本库包括敏感数据和非敏感数据词库。
[0019]进一步,所述预处理过程为:
[0020]将中文的文本划分为单个的词组并标注词性、词长、词频;
[0021]文档集合T_pre={T1,T2,...,T
i
}通过ICTCLAS分词接口,将文本文件进行分词,并在分词的同时统计词长和对词性进行标记;
[0022]文本文件T
i
分词后表示为:
[0023]T
i
=((a
i1
,l
i1
,p
i1
),(a
i2
,l
i2
,p
i2
),...,(a
in
,l
in
,p
in
))
[0024]其中,T
i
表示文本i,a
in
表示划分出来的词组,l
in
表示词组长度,p
in
表示划分出来的词组的词性。
[0025]进一步,所述特征提取过程如下:
[0026]词性选择:文本文件T
i
经过词性选择后,表示为:
[0027][0028]其中,表示提取名词之后的文本,(a
in
,l
in

)∈T
i
且a
in
为名词;
[0029]词频统计:统计关键字出现的频率,形成分词三元组,包含词组,词组在本文本中出现的频率和词性;
[0030]将增加一个词频项,表示为:
[0031][0032]其中,表示统计词频之后的文本,f
in

表示a
in

的词频;
[0033]词长选择:计算每个关键字的长度并删除单个字的关键词,表示为:
[0034][0035]其中,表示统计频率之后的文本表示,a
in”为长度大于一个字的关键词;
[0036]词频选择:剔除统计后的文本分词三元组中只出现过一次的词组,得到:
[0037][0038]其中,表示统计频率之后的文本,f
im
>1。
[0039]进一步,所述特征向量计算过程如下:
[0040]经过预处理和特征选择之后的敏感数据文档库表示为:
[0041]T={Td1,Td2,...,Td
n
,}
[0042]其中,文本Td
i
的特征向量表示为的特征向量表示为表示统计频率之后的文本,f
im
>1;
[0043]根据得到的关键字,经过TFIDF算法计算,将敏感数据用向量表示,得到敏感数据的特征向量V;
[0044]TFIDF算法公式为:d
ij
=t
ij
*log(N/n
j
),其中,t
ij
表示词组a
ij
在文本T
i
中出现的次数,等于中的f
im
,N表示文档总数,n
j
表示文档库中包含词组a
ij
的文档个数;由敏感数据组成的特征向量表示为:
[0045]V=((a
11
,d
11
),(a
12
,d
12
),...,(a
1m
,d
1m
),...,(a
n1
,d
n1
),(a
n2
,d
n2
),...,(a
mn
,d
mn
))
[0046]简记为:V=(d
11
,d
12
,...,d
1m
,...,d
n1
,d
n2
,...,d
mn
);
[0047]根据敏感数据特征向量V计算对应关键词a
ij
在已知分类的文档库中的权值,得到特征向量如下:
[0048]V

[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智慧林业信息传输涉密脱敏系统,其特征在于,包括:接口模块、用户权限管理模块、脱敏规则管理模块和脱敏算法管理模块,所述接口模块用于连接其他业务系统或者管理系统;所述用户权限管理模块对用户在脱敏系统的查阅权限进行限定;所述脱敏规则管理模块用于根据脱敏数据使用环境选择脱敏规则;所述脱敏算法管理模块用于管理多种脱敏算法。2.根据权利要求1所述的一种智慧林业信息传输涉密脱敏系统,其特征在于,所述脱敏算法包括基于文本内容的敏感数据识别算法,其对敏感数据的识别过程如下:步骤一、敏感数据文本库进行预处理和特征提取之后,通过TFIDF算法进行向量空间权值计算,形成数据特征向量;步骤二、已知分类的文本库进行预处理和特征提取之后,通过TFIDF算法计算向量空间权值形成数据特征向量,与敏感数据形成的特征向量进行余弦计算,并统计学习,根据阙值确定方法;步骤三、将待判断的未知分类的文档进行预处理和特征提取,通过TFIDF算法计算向量空间权值形成数据特征向量后,与敏感数据的特征向量进行余弦计算,将得到的余弦值与阙值进行比较,判断是否是敏感数据。3.根据权利要求1所述的一种智慧林业信息传输涉密脱敏系统,其特征在于,所述文本分类包括以下步骤:步骤一、建立数据集,包含训练集和测试集;步骤二、建立文本表示模型并进行文本特征选择;步骤三、在训练集上进行机器学习,建立分类器;训练集包含敏感文本库和已知分类文本库,所述敏感文本库为包含敏感数据文档的词库,所述分类文本库包括敏感数据和非敏感数据词库。4.根据权利要求2所述的一种智慧林业信息传输涉密脱敏系统,其特征在于,所述预处理过程为:将中文的文本划分为单个的词组并标注词性、词长、词频;文档集合T_pre={T1,T2,...,T
i
}通过ICTCLAS分词接口,将文本文件进行分词,并在分词的同时统计词长和对词性进行标记;文本文件T
i
分词后表示为:T
i
=((a
i1
,l
i1
,p
i1
),(a
i2
,l
i2
,p
i2
),...,(a
in
,l
in
,p
in
))其中,T
i
表示文本i,a
in
表示划分出来的词组,l
in
表示词组长度,p
in
表示划分出来的词组的词性。5.根据权利要求2所述的一种智慧林业信息传输涉密脱敏系统,其特征在于,所述特征提取过程如下:词性选择:文本文件T
i
经过词性选择后,表示为:其中,表示提取名词之后的文本,(a
in
,l
in,
)∈T
i
且a
in
为名词;词频统计:统计关键字出现的频率,形成分词三元组,包含词组,词组在本文本中出现
的频率和词性;将增加一个词频项,表示为:其中,表示统计词频之后的文本,f
in,
表示a
in,
的词频;词长选择:计算每个关键字的长度并删除单个字的关键词,表示为:其中,表示统计频率之后的文本表示,a
in,,
为长度大于一个字的关键词;词频选择:剔除统计后的文本分词三元组中只出现过一次的词组,得到:其中,表示统计频率之后的文本,f
im
>1。6.根据权利要求2所述的一种智慧林业信息传输涉密脱敏系统,其特征在于,所述特征向量计算过程如下:经过预处理和特征选择之后的敏感数据文档库表示为:T={Td1,Td2,...,Td
n
,}其中,文本Td
i
的特征向量表示为的特征向量表示为表示统计频率之后的文本,...

【专利技术属性】
技术研发人员:张传学张春香张零辉王倩
申请(专利权)人:安徽龙运智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1