当前位置: 首页 > 专利查询>广州大学专利>正文

面向中文威胁报告的ATT&CK模型映射方法及装置制造方法及图纸

技术编号:38831629 阅读:14 留言:0更新日期:2023-09-17 09:50
本说明书实施例提供了一种面向中文威胁报告的ATT&CK模型映射方法及装置,其中,该方法包括获取威胁报告文本,通过中文开源自然语言处理工具对威胁报告文本分析,并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注;基于预设的语义角色标签与攻击向量维度的映射关系表,抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段,将文本片段拼接成一个新的文本代表攻击向量;将攻击向量输入至ATT&CK映射模型,获得对应的TTP标签,根据TTP标签确定解除威胁的TTP决策。本发明专利技术以ATT&CK威胁框架为核心,可以精准定位攻击相关主题报告,过滤无关、冗余信息获取,聚焦核心威胁信息。焦核心威胁信息。焦核心威胁信息。

【技术实现步骤摘要】
面向中文威胁报告的ATT&CK模型映射方法及装置


[0001]本专利技术涉及计算机信息
,尤其涉及一种面向中文威胁报告的ATT&CK模型映射方法及装置

技术介绍

[0002]开源威胁报告中包含最新的攻击手段、攻击线索、攻击踪迹等信息,对构建基于主动防御的威胁狩猎、态势感知具有重要意义。报告中的威胁信息主要采用自然语言描述的形式对攻击行为细节进行呈现,同时也会流露出作者对攻击者更高层面的意图和动机的揣测和思考。如果能从大量威胁报告中提炼攻击者意图及其所使用的攻击策略,结合大数据分析优势,能够为积极主动的防御实施提供数据支撑,这是一个研究热点。由专业人员和社区进行维护和打造的ATT&CK知识库,是网络空间安全领域十分重要的开源知识库。ATT&CK威胁框架中描述了详细的攻击技术和高可信的威胁知识,它能够桥接攻击者行为与攻击者意图,填充威胁报告和攻击者行为之间的语义联系。从中文开源威胁报告中提取攻击行为,再通过ATT&CK映射到对应的战术、技术和程序(TTP),能够清晰呈现攻击者行为链条,辅助发现攻击组织、攻击者的攻击意图,帮助安全分析师开展防御提供针对性决策依据。
[0003]现有技术中,面向开源威胁报告的ATT&CK映射方法,主流技术涉及三类方法:基于统计、基于早期机器学习、和基于深度学习的方法。
[0004]但存在以下问题:
[0005]首先,现有技术大多解析的都是英文开源威胁报告,而面向无论是在语言表达风格上还是在词汇使用习惯上都与英文存在巨大差异的中文开源威胁报告,上述方法均不适用;其次,中文开源情报体系发展相对英美发展落后,这导致高质量有标注的网安训练数据量相对与英文标注数据要少很多,因此使用机器学习和深度学习算法训练后的ATT&CK映射模型泛化能力差;最后,开源威胁报告具有领域性、专业性的特点,通用的中文自然语言处理工具不足以很好的支撑相关研究。随着我国面对网络威胁日益剧增,中文开源威胁报告发布途径日益增多,挖掘中文开源威胁报告中暗含的攻击者意图需求将会扩大。

技术实现思路

[0006]为克服相关技术中存在的问题,本公开提供一种面向中文威胁报告的ATT&CK模型映射方法及装置。
[0007]本说明书一个或多个实施例提供了一种面向中文威胁报告的ATT&CK模型映射方法,包括以下步骤:
[0008]获取威胁报告文本,通过中文开源自然语言处理工具对威胁报告文本分析,并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注;
[0009]基于预设的语义角色标签与攻击向量维度的映射关系表,抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段,将文本片段拼接成一个新的文本代表攻击向量;其中,攻击向量为表征攻击行为主体、意图、方式、动机以及时机特征的向量;
[0010]将攻击向量输入至ATT&CK映射模型,获得对应的TTP标签,根据TTP标签确定解除威胁的TTP决策,其中
[0011]ATT&CK映射模型为基于BM25检索算法的模型,所述ATT&CK映射模型为通过计算带TTP标签的攻击向量数据中出现的词汇与每个带TTP标签的攻击向量的相关性程度。
[0012]进一步的,所述获取威胁报告文本,通过经过网安领域知识增强后的中文开源自然语言处理工具对威胁报告文本分析,并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注,具体为:
[0013]通过中文开源自然语言处理工具对威胁报告文本进行分词和词性标注;
[0014]根据词性标注确定动词短语,并确定动词短语是否包含攻击动作词,如果包含则转下一步骤,若不包含,则丢弃该威胁文本;
[0015]通过经过网安领域知识增强后的中文开源自然语言处理工具对威胁报告文本进行句法依存分析和语义角色标注。
[0016]进一步的,基于预设的语义角色标签与攻击向量维度的映射关系表,抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段,将文本片段拼接成一个新的文本代表攻击向量,具体为:
[0017]确定威胁报告文本各单句中各词汇的语义角色标签,并根据构建的语义角色标签与攻击向量维度的映射关系表中的映射关系,确定威胁报告文本各单句中带有与攻击向量维度相对应的语义角色标签所对应的第一文本片段;
[0018]将带有与攻击向量维度相对应的语义角色标签所对应的第一文本片段拼接成文本序列;
[0019]对文本序列进行分词处理,获得各第二文本片段,根据预设的映射关系,得到各第二文本片段代表威胁信息的攻击向量,且攻击向量按照威胁报告文本各单句的语序进行排列;其中,攻击向量的长度等同于攻击向量中出现的第二文本片段的个数。
[0020]进一步的,所述输入至ATT&CK映射模型中的攻击向量为:
[0021]根据预设的攻击向量个数获取条件顺序获取预设个数的攻击向量输入至ATT&CK映射模型。
[0022]进一步的,所述ATT&CK映射模型中设置一个决策机制,其核心公式如下:
[0023]T
rtp
=lOOkup({T1,T2,...T
N
})
[0024]其中,N代表输入的攻击向量个数,变量T
N
代表ATT&CK模型对第N个攻击向量预测的TTP标签,函数lookup用于识别TTPs标签,并赋值给变量T
ttp

[0025]进一步的,还包括对中文开源自然语言处理工具的领域信息强化的方法包括步骤:
[0026]采集中文开源威胁报告和ATT&CK官网上关于攻击者战略、战术、技术、防御措施及其攻击实例的描述文本;
[0027]采用文本预处理方法对中文开源威胁报告和ATT&CK描述文本数据清洗,提取与网络攻击相关的威胁报告文本;
[0028]使用中文开源自然语言处理工具对威胁文本进行词法、句法、语义三个层面分析,提取描述攻击动作的动词词汇,构建成攻击动作词表;
[0029]使用中文开源自然语言处理工具对威胁文本进行词法、句法、语义三个层面分析,
提取与攻击动作相关的攻击主体词汇,构建成攻击主体词表;
[0030]使用攻击动作词表和攻击主体词表拓展中文开源自然语言处理能力,获得面向中文开源威胁情报的增强型自然语言处理工具。
[0031]进一步的,所述攻击动作词表构建过程具体为:
[0032]步骤S101、采用中文开源自然语言处理工具对威胁文本进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注;
[0033]步骤S102、抽取威胁文本中满足词性标签为动词的词汇,依存句法结构中与名词关联的词汇、及语义角色为动作成分的词汇本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向中文威胁报告的ATT&CK模型映射方法,其特征在于,包括以下步骤:获取威胁报告文本,通过中文开源自然语言处理工具对威胁报告文本分析,并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注;基于预设的语义角色标签与攻击向量维度的映射关系表,抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段,将文本片段拼接成一个新的文本代表攻击向量;其中,攻击向量为表征攻击行为主体、意图、方式、动机以及时机特征的向量;将攻击向量输入至ATT&CK映射模型,获得对应的TTP标签,根据TTP标签确定解除威胁的TTP决策,其中ATT&CK映射模型为基于BM25检索算法的模型,所述ATT&CK映射模型为通过计算带TTP标签的攻击向量数据中出现的词汇与每个带TTP标签的攻击向量的相关性程度。2.如权利要求1所述的面向中文威胁报告的ATT&CK模型映射方法,其特征在于,所述获取威胁报告文本,通过中文开源自然语言处理工具对威胁报告文本分析,并进行中文断句、中文分词、词性标注、依存句法分析以及语义角色标注,具体为:通过中文开源自然语言处理工具对威胁报告文本进行分词和词性标注;根据词性标注确定动词短语,并确定动词短语是否包含攻击动作词,如果包含则转下一步骤,若不包含,则丢弃该威胁文本;通过中文开源自然语言处理工具对威胁报告文本进行句法依存分析和语义角色标注。3.如权利要求1或2所述的面向中文威胁报告的ATT&CK模型映射方法,其特征在于,基于预设的语义角色标签与攻击向量维度的映射关系表,抽取威胁报告文本中符合攻击向量所对应的语义角色标签类型的文本片段,将文本片段拼接成一个新的文本代表攻击向量,具体为:确定威胁报告文本各单句中各词汇的语义角色标签,并根据构建的语义角色标签与攻击向量维度的映射关系表中的映射关系,确定威胁报告文本各单句中带有与攻击向量维度相对应的语义角色标签所对应的第一文本片段;将带有与攻击向量维度相对应的语义角色标签所对应的第一文本片段拼接成文本序列;对文本序列进行分词处理,获得各第二文本片段,根据预设的映射关系,得到各第二文本片段代表威胁信息的攻击向量,且攻击向量按照威胁报告文本各单句的语序进行排列;其中,攻击向量的长度等同于攻击向量中出现的第二文本片段的个数。4.如权利要求1所述的面向中文威胁报告的ATT&CK模型映射方法,其特征在于,所述输入至ATT&CK映射模型中的攻击向量为:根据预设的攻击向量个数获取条件顺序获取预设个数的攻击向量输入至ATT&CK映射模型。5.如权利要求1所述的面向中文威胁报告的ATT&CK模型映射方法,其特征在于,所述ATT&CK映射模型中设置一个决策机制,其核心公式如下:T
ttp
=lookup({T1,T2,

T
N
})其中,N代表输入的攻击向量个数,变量T
N
代表ATT&CK模型对第N个攻击向量预测的TTP标签,函数lookup用于识别TTPs标签,并赋值给变量T
ttp
。6.如权利要求1所述的面向中文威胁报告的ATT&CK模型映射方法,其特征在于,还包括
对中文开源自然语言处理工具的领域信息强化的方法包括步骤:采集中文开源威胁报告和ATT&CK官网上关于攻击者战略、战术、技术、防御措施及其攻击实例的描述文本;采用文本预处理方法对中文开源威胁报告和ATT&a...

【专利技术属性】
技术研发人员:仇晶高成亮陈俊君汤菲邢家旭田志宏孙彦斌李默涵陈荣融郑东阳胡铭皓倪晓雅肖千龙
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1