文本定密方法及装置、非易失性存储介质、处理器制造方法及图纸

技术编号:34641994 阅读:11 留言:0更新日期:2022-08-24 15:17
本申请公开了一种文本定密方法及装置、非易失性存储介质、处理器。其中,该方法包括:获取待分类文本集合;确定待分类文本集合中各待分类文本的特征向量;将各待分类文本的特征向量输入至涉密等级分类模型进行处理,确定各待分类文本的涉密等级,其中,涉密等级分类模型是对各待分类文本的特征向量形成的特征向量空间进行训练得到的。本申请解决了由于无法对文本进行合理精准分类造成的文本定密效率较低与文本定密精确度较差的技术问题。低与文本定密精确度较差的技术问题。低与文本定密精确度较差的技术问题。

【技术实现步骤摘要】
文本定密方法及装置、非易失性存储介质、处理器


[0001]本申请涉及网络信息安全领域,具体而言,涉及一种文本定密方法及装置、非易失性存储介质、处理器。

技术介绍

[0002]随着计算机网络等技术的高速发展,许多企业信息化建设不断推进,大量应用了信息处理、交流、存储和管理等软件,规范了操作流程和工作方式提高工作效率,却带来了信息泄露风险。因此,保密工作成为关键环节,保密工作中最关键的一点就是对确定涉密文本的秘密等级。相关技术中,确定文本秘密等级的算法技术依然存在定密效率低、定密精准度差的问题。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本申请实施例提供了一种文本定密方法及装置、非易失性存储介质、处理器,以至少解决由于无法对文本进行合理精准分类造成的文本定密效率较低与文本定密精确度较差的技术问题。
[0005]根据本申请实施例的一个方面,提供了一种文本定密方法,包括:获取待分类文本集合;确定待分类文本集合中各待分类文本的特征向量;将各待分类文本的特征向量输入至涉密等级分类模型进行处理,确定各待分类文本的涉密等级,其中,涉密等级分类模型是对各待分类文本的特征向量形成的特征向量空间进行训练得到的。
[0006]可选地,确定待分类文本集合中各待分类文本的特征向量,包括:对各待分类文本进行预处理,得到各待分类文本对应的原始特征;对各待分类文本对应的原始特征进行处理,得到各待分类文本对应的概念特征;分别计算各待分类文本对应的概念特征的卡方值,得到各待分类文本对应的目标特征集合;计算目标特征集合中各特征的权重,得到各待分类文本对应的特征向量,其中,特征向量用于表示待分类文本。
[0007]可选地,分别计算各待分类文本对应的概念特征的卡方值,得到各待分类文本对应的目标特征集合,包括:对各待分类文本对应的概念特征的卡方值进行降序排列,得到各待分类文本对应的概念特征的卡方值序列;将卡方值序列中前N个卡方值对应的概念特征确定为目标特征集合,其中,N为大于0的自然数。
[0008]可选地,将各待分类文本的特征向量输入至涉密等级分类模型进行处理之前,方法还包括:对各待分类文本的特征向量进行计算,得到特征向量空间;将特征向量空间输入支持向量机进行训练,得到涉密等级分类模型。
[0009]可选地,对各待分类文本进行预处理,包括如下至少之一:分词处理以及去停用词处理;对各待分类文本对应的原始特征进行处理,包括如下至少之一:语义消歧、概念映射以及概念去重。
[0010]可选地,涉密等级包括以下之一:非密级、秘密级、机密级和绝密级。
[0011]根据本申请实施例的另一方面,还提供了一种文本定密装置,包括:获取模块,用于获取待分类文本集合;确定模块,用于确定待分类文本集合中各待分类文本的特征向量;处理模块,用于将各待分类文本的特征向量输入至涉密等级分类模型进行处理,确定各待分类文本的涉密等级,其中,涉密等级分类模型是对各待分类文本的特征向量形成的特征向量空间进行训练得到的。
[0012]可选地,确定模块包括:第一处理单元,用于对各待分类文本进行预处理,得到各待分类文本对应的原始特征;第二处理单元,用于对各待分类文本对应的原始特征进行处理,得到各待分类文本对应的概念特征;第一计算单元,用于分别计算各待分类文本对应的概念特征的卡方值,得到各待分类文本对应的目标特征集合;第二计算单元,用于计算目标特征集合中各特征的权重,得到各待分类文本对应的特征向量,其中,特征向量用于表示待分类文本。
[0013]根据本申请实施例的再一方面,还提供了一种非易失性存储介质,存储介质包括存储的程序,其中,程序运行时控制存储介质所在的设备执行以上的文本定密方法。
[0014]根据本申请实施例的再一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行以上的文本定密方法。
[0015]在本申请实施例中,采用获取待分类文本集合;确定待分类文本集合中各待分类文本的特征向量;将各待分类文本的特征向量输入至涉密等级分类模型进行处理,确定各待分类文本的涉密等级,其中,涉密等级分类模型是对各待分类文本的特征向量形成的特征向量空间进行训练得到的的方式,通过确定待分类文本集合中各待分类文本的特征向量;将各待分类文本的特征向量输入至涉密等级分类模型进行处理,确定各待分类文本的涉密等级,从而实现了精准确定涉密文本的涉密等级的技术效果,进而解决了由于无法对文本进行合理精准分类造成的文本定密效率较低与文本定密精确度较差技术问题。
附图说明
[0016]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0017]图1是根据本申请实施例的一种文本定密方法的流程图;
[0018]图2是根据本申请实施例的另一种文本定密方法的流程图;
[0019]图3是根据本申请实施例的一种文本定密装置的结构图。
具体实施方式
[0020]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0021]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0022]根据本申请实施例,提供了一种文本定密的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0023]图1是根据本申请实施例的一种文本定密方法的流程图,如图1所示,该方法包括如下步骤:
[0024]步骤S102,获取待分类文本集合。
[0025]根据本申请的一个可选的实施例,待分类文本集合由待分类文本组成,其中待分类文本包括任何形式、任何语言的文本。待分类文本可以包括用户输入的电子文本,也可以包括自动从数据库中获取的电子文本。上述电子文本可以包括国有企业存储的电子文本,其可能包含国家机密,也可以包括私有企业存储的单子文本,其可能包含私有企业的核心技术等商业机密。
[0026]步骤S1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本定密方法,其特征在于,包括:获取待分类文本集合;确定所述待分类文本集合中各待分类文本的特征向量;将所述各待分类文本的特征向量输入至涉密等级分类模型进行处理,确定所述各待分类文本的涉密等级,其中,所述涉密等级分类模型是对所述各待分类文本的特征向量形成的特征向量空间进行训练得到的。2.根据权利要求1所述的方法,其特征在于,确定所述待分类文本集合中各待分类文本的特征向量,包括:对所述各待分类文本进行预处理,得到所述各待分类文本对应的原始特征;对所述各待分类文本对应的原始特征进行处理,得到所述各待分类文本对应的概念特征;分别计算所述各待分类文本对应的概念特征的卡方值,得到所述各待分类文本对应的目标特征集合;计算所述目标特征集合中各特征的权重,得到所述各待分类文本对应的特征向量,其中,所述特征向量用于表示所述待分类文本。3.根据权利要求2所述的方法,其特征在于,分别计算所述各待分类文本对应的概念特征的卡方值,得到所述各待分类文本对应的目标特征集合,包括:对所述各待分类文本对应的概念特征的卡方值进行降序排列,得到所述各待分类文本对应的概念特征的卡方值序列;将所述卡方值序列中前N个卡方值对应的所述概念特征确定为所述目标特征集合,其中,N为大于0的自然数。4.根据权利要求1所述的方法,其特征在于,将所述各待分类文本的特征向量输入至涉密等级分类模型进行处理之前,所述方法还包括:对所述各待分类文本的特征向量进行计算,得到所述特征向量空间;将所述特征向量空间输入支持向量机进行训练,得到所述涉密等级分类模型。5.根据权利要求2所述的方法,其特征在于,包括:对所述各待分类文本进行预处...

【专利技术属性】
技术研发人员:王乾赵轶新蒋艳军孙科
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1