System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本分类方法、装置、电子设备及存储介质制造方法及图纸_技高网

文本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40111990 阅读:8 留言:0更新日期:2024-01-23 19:19
本申请提供一种文本分类方法、装置、电子设备及存储介质。该方法包括:对待分类文本进行处理,获得待分类文本对应的文本特征向量;将文本特征向量输入预先训练好的文本分类模型中,获得文本分类模型输出的待分类文本对应的分类结果;分类结果用于表征待分类文本对应的攻击意图分类;其中,文本分类模型为利用训练文本和测试文本获得偏差校正权重,并利用偏差校正权重对训练文本进行校正后获得的校正后训练文本训练分类器获得,且训练文本和测试文本的来源不同。本申请实施例通过偏差校正权重对训练文本进行偏差校正,从而利用偏差校正后的训练文本训练文本分类模型,提高了文本分类模型的泛化能力,从而提高了对文本分类的准确性。

【技术实现步骤摘要】

本申请涉及网络安全,具体而言,涉及一种文本分类方法、装置、电子设备及存储介质


技术介绍

1、近年来,大量组织遭遇了复杂的网络攻击,包括高级持续性威胁(advancedpersistent threats,apt)。大多数apt攻击使用的技术很容易避开通用的现成防御机制。这些组织定期以报告的形式共享威胁信息,目的是通过提高个人对此类攻击的认识来提高安全性。各个组织生成的威胁报告数量呈上升趋势,威胁报告的自动解析是促进有效使用的必要条件。

2、现有技术中,通常采用对威胁报告进行特征提取,基于训练获得的模型对提取到的特征进行分析,获得威胁报告的分类。由于模型在训练过程中,训练数据和测试数据的来源往往不同,从而导致模型在分析的过程中存在偏差,进而导致分类的准确性不高。


技术实现思路

1、本申请实施例的目的在于提供一种文本分类方法、装置、电子设备及存储介质,用以提高对文本分类的准确性。

2、第一方面,本申请实施例提供一种文本分类方法,包括:

3、对待分类文本进行处理,获得待分类文本对应的文本特征向量;

4、将文本特征向量输入预先训练好的文本分类模型中,获得文本分类模型输出的待分类文本对应的分类结果;分类结果用于表征待分类文本对应的攻击意图分类;

5、其中,文本分类模型为利用训练文本和测试文本获得偏差校正权重,并利用偏差校正权重对所述训练文本进行校正后获得的校正后训练文本训练分类器获得,且训练文本和测试文本的来源不同。

6、本申请实施例通过偏差校正权重对训练文本进行偏差校正,从而利用偏差校正后的训练文本训练文本分类模型,提高了文本分类模型的泛化能力,从而提高了对文本分类的准确性。

7、在任一实施例中,该方法还包括:

8、获取训练文本和测试文本;训练文本和测试文本来源不同;

9、利用语言处理模型分别对训练文本和测试文本进行处理获得训练特征向量和测试特征向量;

10、分别将训练特征向量对应的分布和测试特征向量对应的分布映射到再生核希尔伯特空间,获得训练特征向量对应的训练映射分布和测试映射分布;

11、根据训练映射分布和测试映射分布计算获得偏差校正权重;

12、利用偏差校正权重对训练文本进行偏差校正,并利用偏差校正后的训练文本对分类器进行训练,获得文本分类模型。

13、本申请实施例通过不同来源的训练文本和测试文本计算获得偏差校正权重,从而可以通过偏差校正权重对训练文本的训练文本特征向量进行偏差校正,从而提高了文本分类模型的泛化能力。

14、在任一实施例中,根据训练映射分布和测试映射分布计算获得偏差校正权重,包括:

15、根据公式min||e[β(x)φ(x1)]-e[φ(x2)]||计算获得偏差校正权重;

16、其中,β(x)为待计算的偏差校正权重;φ(x1)为训练映射分布;φ(x2)为测试映射分布;e用于表示期望;||·||用于表示二范数。

17、本申请实施例通过计算加权的训练映射分布和测试映射分布之间的距离的最大均值差异来计算偏差校正权重,从而使得加权后的训练映射分布与测试映射分布的差异最小,通过这种方式计算的偏差校正权重可以较好的对待分类文本进行偏差校正。

18、在任一实施例中,对待分类文本进行处理,包括:

19、利用bert模型对待分类文本进行编码,获得待分类文本对应的句子表示向量;

20、通过第一层transformer编码器子结构用于对句子表示向量进行处理,并将处理结果输入下一层transformer编码器子结构;

21、将最后一层transformer编码器子结构输出的结果取求和,作为待分类文本对应的篇章表示。

22、本申请实施例通过bert模型和多层transformer编码器子结构,以捕获句子之间的长期语义依赖关系,获得文本级特征的句子表示,为后续攻击意图的分类的准确性提供基础。

23、在任一实施例中,利用所述偏差校正权重对所述训练特征向量进行偏差校正,包括:

24、计算偏差校正权重与训练特征向量的乘积,获得校正后的训练特征向量。

25、本申请实施例通过利用偏差校正权重对训练特征向量进行偏差校正,以提高训练后的文本分类模型的泛化能力。

26、在任一实施例中,将文本特征向量输入预先训练好的文本分类模型中,获得文本分类模型输出的待分类文本对应的分类结果,包括:

27、通过sigmoid激活函数的单层前向网络对文本特征向量进行分类,获得分类结果。

28、本申请实施例中,由于输入的待分类文本可能属于某一种或两种,甚至更多种类别,每个类别独立但不互斥,sigmoid激活函数支持处理非独占类问题,因此,采用sigmoid激活函数可以实现对待分类文本较为准确的分类。

29、在任一实施例中,分类结果包括以下至少一种:侦察、资源开发、初始访问、执行、持久化、权限提升、防御规避、凭证访问、发现、横向移动、收集、命令与控制、数据窃取和危害。

30、本申请实施例所提供的方法实现了对待分类文本进行att&ck战术分类。

31、第二方面,本申请实施例提供一种文本分类装置,包括:

32、文本处理模块,用于对所述待分类文本进行处理,获得所述待分类文本对应的文本特征向量;

33、分类模块,用于将所述文本特征向量输入预先训练好的文本分类模型中,获得所述文本分类模型输出的所述待分类文本对应的分类结果;所述分类结果用于表征所述待分类文本对应的攻击意图分类;

34、其中,所述文本分类模型为利用训练文本和测试文本获得偏差校正权重,并利用所述偏差校正权重对训练文本进行校正后获得的校正后训练文本训练分类器获得,且所述训练文本和所述测试文本的来源不同。

35、第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,其中,

36、所述处理器和所述存储器通过所述总线完成相互间的通信;

37、所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法。

38、第四方面,本申请实施例提供一种非暂态计算机可读存储介质,包括:

39、所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法。

40、本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

本文档来自技高网...

【技术保护点】

1.一种文本分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述训练映射分布和所述测试映射分布计算获得所述偏差校正权重,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述待分类文本进行处理,包括:

5.根据权利要求2所述的方法,其特征在于,所述利用所述偏差校正权重对所述训练特征向量进行偏差校正,包括:

6.根据权利要求1所述的方法,其特征在于,所述将所述文本特征向量输入预先训练好的文本分类模型中,获得所述文本分类模型输出的所述待分类文本对应的分类结果,包括:

7.根据权利要求1-6任一项所述的方法,其特征在于,所述分类结果包括以下至少一种:侦察、资源开发、初始访问、执行、持久化、权限提升、防御规避、凭证访问、发现、横向移动、收集、命令与控制、数据窃取和危害。

8.一种文本分类装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,

10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种文本分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述训练映射分布和所述测试映射分布计算获得所述偏差校正权重,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述待分类文本进行处理,包括:

5.根据权利要求2所述的方法,其特征在于,所述利用所述偏差校正权重对所述训练特征向量进行偏差校正,包括:

6.根据权利要求1所述的方法,其特征在于,所述将所述文本特征向量输入预先训练好的文本分类模型中,获得所述文本分类模...

【专利技术属性】
技术研发人员:刘微
申请(专利权)人:北京天融信网络安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1