【技术实现步骤摘要】
一种文本分类方法、装置及电子设备
[0001]本申请涉及网络安全
,尤其涉及一种文本分类方法、装置及电子设备。
技术介绍
[0002]近年来,随着物联网技术的飞速发展,终端、服务器与物联网实体组成的办公局域网,面临着大量来自外部的攻击以及内部病毒的威胁。为了有效地避免未知威胁带来的破坏,需要预先准确地检测到未知威胁。
[0003]目前,网络侧检测使用的现有特征匹配,无法有效地识别未知威胁,且会因特征库中特征数量的增长,需要占用更多的运算资源,以及特征数据存在加密等问题,从而导致难以发现具备超强对抗性的高级持续性威胁(Advanced Persistent Threat,APT)攻击。
[0004]可见,如果只使用传统的网络侧检测,一旦网络侧检测未检测到未知威胁,防御系统便会被未知威胁突破。因此,作为有效检测未知威胁的方式之一,终端检测必不可少。
[0005]例如,在日常生活中,终端检测通过收集并分析终端日志中出现的相似行为,再根据行为判定恶意性,以此综合性地判断威胁事件,并最终进行威胁的鉴定和识 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取业务数据方发送的目标文本,以及记录所述目标文本的目标存储路径信息;其中,所述目标存储路径信息包括:至少一个目标路径节点及其各自的目标节点名称;获取日志文件中记录的各个历史文本各自对应的历史存储路径信息;其中,每个历史存储路径信息包括:至少一个历史路径节点及其各自的历史节点名称;若在获得的至少一个目标节点名称中,选取出与各个历史节点名称不同的至少一个特有节点名称,则分别确定所述至少一个特有节点名称各自的字符转移概率;其中,每个字符转移概率是根据相应特有节点名称的字符串中,每相邻两个字符的转移概率得到的;基于获得的至少一个字符转移概率所归属的字符转移概率区间,对所述目标文本进行文本分类。2.如权利要求1所述的方法,其特征在于,所述获取业务数据方发送的目标文本之前:获取至少一个目标簇;其中,每个目标簇是对设定的未知样本集合二次聚类获得的,所述未知样本集合中包含的各个未知样本是业务数据方发送的;针对获得的至少一个目标簇,分别执行以下操作:分别确定一个目标簇内包含的各个未知样本各自对应的特征行为,与其他未知样本的特征行为之间的特征相似度,挑选出特征相似度满足预设相似度条件的未知样本,作为候选文本进行保存;所述获取业务数据方发送的目标文本,包括:从保存的各个候选文本中,选取一个候选文本作为所述目标文本。3.如权利要求2所述的方法,其特征在于,所述获取至少一个目标簇,包括:基于各个临时簇各自对应的初始特征行为数量所归属的特征数量区间,获得至少一个候选簇;其中,每个临时簇是通过对所述未知样本集合初步聚类得到的;针对所述至少一个候选簇,分别执行以下步骤:若一个候选簇包含的各个未知样本均未关联相应标签,则将所述一个候选簇作为目标簇;若所述一个候选簇包含的各个未知样本关联至少一个标签,则确定所述至少一个标签对应的标签种类数量,并在确定所述标签种类数量归属于设定的标签种类数量区间时,将所述一个候选簇作为目标簇。4.如权利要求3所述的方法,其特征在于,所述基于各个临时簇各自对应的初始特征行为数量所归属的特征数量区间,获得至少一个候选簇,包括:分别获取各个临时簇各自对应的初始特征行为数量,选取出属于设定特征数量区间的至少一个候选特征行为数量;对所述至少一个候选特征行为数量各自对应的临时簇,各自包含的各个未知样本添加标签,并将每个候选特征行为数量对应的临时簇作为一个候选簇。5.如权利要求1
‑
4中任一项所述的方法,其特征在于,所述选取出与各个历史节点名称不同的至少一个特有节点名称,包括:获取日志文件中的白样本数据集以及黑样本数据集;其中,所述白样本数据集包括:至少一个正常样本及其各自对应的正常存储路径信息,每个正常存储路径信息包括:至少一个正常路径节点及其各自的历史节点名称,以及所述黑样本数据集包括:至少一个异常样本及其各自对应的异常存储路径信息,每个异常存储路径信息包括:至少一个异常路径节
点及其各自的历史节点名称;基于所述至少一个目标节点名称各自对应的黑白样本相似度评估值,从所述至少一个目标节点名称中,选取出与所述各个历史节点...
【专利技术属性】
技术研发人员:杨晖,吴铁军,范敦球,赵光远,叶晓虎,
申请(专利权)人:北京神州绿盟科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。