一种实体识别方法、装置、设备及存储介质制造方法及图纸

技术编号:28786546 阅读:38 留言:0更新日期:2021-06-09 11:21
本申请提供了一种实体识别方法、装置、设备及存储介质,该方法包括:获取原始威胁情报文本;针对每一原始威胁情报文本,按照分词所属实体的实体类型,对该原始威胁情报文本中的每一个分词进行标记,得到训练样本;将训练样本输入实体识别模型,利用该训练样本中的每一个分词以及该分词对应的所述实体标记,对该实体识别模型进行训练,得到训练好的实体识别模型,其中,实体识别模型在训练过程中使用的损失函数用于减小所属实体标记相同的分词之间的空间距离以及增大所属实体标记不同的分词之间的空间距离;将待识别的威胁情报文本输入训练好的实体识别模型中,得到实体识别结果。可以提高对威胁情报领域内特定类型实体的识别准确度。别准确度。别准确度。

【技术实现步骤摘要】
一种实体识别方法、装置、设备及存储介质


[0001]本专利技术涉及信息安全
,具体而言,涉及一种实体识别方法、装置、设备及存储介质。

技术介绍

[0002]在信息安全
内,APT(Advanced Persistent Threat,高级持续性威胁)攻击是指攻击方以长期性的情报收集、信息监控等作为攻击意图,专门针对科研、能源、高新技术、军事等保密性要求较高的技术产业部门所进行的网络攻击。由于APT攻击具有非常强的隐蔽性,因此,为更好地应对APT攻击,不同技术产业部门之间需要对各自收集到的威胁情报进行共享,其中,威胁情报是指被攻击方针对网络安全威胁、攻击者、恶意软件、漏洞等攻击指示器所收集的数据集。这样,通过威胁情报共享,以“空间”来换取“时间”,有利于不同技术产业部门之间采取协同的方式,来共同应对APT攻击,保护信息安全。进而,如何更好地识别具有威胁情报分析价值的威胁情报,成为当前信息安全
内所迫切需要解决的技术问题。
[0003]目前的威胁情报识别方法,多以自然语言处理技术为主,将威胁情报中常见的攻击组织名称、攻击工本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法,其特征在于,所述方法包括:获取原始威胁情报文本;针对每一所述原始威胁情报文本,按照分词所属实体的实体类型,对该原始威胁情报文本中的每一个分词进行标记,得到训练样本,其中,所述实体类型至少包括:威胁情报类型和非威胁情报类型,所述训练样本中的每一个分词对应一个实体标记;针对每一所述训练样本,将该训练样本输入实体识别模型,利用该训练样本中的每一个分词以及该分词对应的所述实体标记,对该实体识别模型进行训练,得到训练好的实体识别模型,其中,所述实体识别模型在训练过程中使用的损失函数用于减小所属实体标记相同的分词之间的空间距离以及增大所属实体标记不同的分词之间的空间距离;将待识别的威胁情报文本输入训练好的实体识别模型中,得到实体识别结果,其中,所述实体识别结果包括:属于目标实体的分词以及该分词对应的实体标记,其中,所述目标实体是实体类型为所述威胁情报类型的实体。2.根据权利要求1所述的方法,其特征在于,所述按照分词所属实体的实体类型,对该原始威胁情报文本中的每一个分词进行标记,包括:根据STIX规范以及所述实体类型,定义用于对所述原始威胁情报文本中的分词进行标记的实体标签,其中,所述STIX规范是一种用于描述网络威胁信息的结构化语言的标准规范,所述实体标签包括:第一子标签、第二子标签以及第三子标签;针对所述原始威胁情报文本中的每一个分词,利用该分词所属实体的实体类型,判断该分词所属实体是否属于所述威胁情报类型;若确定该分词所属实体属于所述威胁情报类型,则利用所述第一子标签和所述第二子标签,对该分词进行标记,得到该分词对应的实体标记;若确定该分词所属实体属于所述非威胁情报类型,则将所述第三子标签配置为该分词对应的实体标记,其中,所述第三子标签用于表征该分词所属实体不具备威胁情报分析价值。3.根据权利要求2所述的方法,其特征在于,所述利用所述第一子标签和所述第二子标签,对该分词进行标记,包括:根据第一实体在所述原始威胁情报文本中对应的词组,确定该分词在所述词组中的位置,其中,所述第一实体是该分词所属的实体,所述词组是属于所述第一实体的所有分词组成的词组;根据该分词在所述词组中所处的位置,从所述第一子标签中,为该分词配置与所述位置相匹配的第一子标签,其中,所述第一子标签包括:首位子标签和非首位子标签,所述首位子标签用于表征该分词位于所述词组的首位,所述非首位子标签用于表征该分词位于所述词组的中位或末位;根据该分词所属实体的语义,从所述第二子标签中,为该分词配置与所述语义相匹配的第二子标签,其中,该第二子标签用于表征该分词所属实体的威胁情报分析语义价值。4.根据权利要求1所述的方法,其特征在于,所述将该训练样本输入实体识别模型,利用该训练样本中的每一个分词以及该分词对应的所述实体标记,对该实体识别模型进行训练,包括:针对该训练样本中的每一个分词,获取该分词的字符特征向量以及词特征向量;
利用所述字符特征向量以及所述词特征向量,计算该分词的深层语义特征向量;利用该训练样本中的每一个分词的深层语义特征向量和Triplet损失函数,计算第一输出损失函数值;利用该训练样本中的每一个分词的深层语义特征向量和条件随机场,计算第二输出损失函数值;将所述第一输出损失函数值与所述第二输出损失函数值作为自变量,代入模型损失函数中,通过调整所述模型损失函数的参数值,对所述实体识别模型进行重复训练,直至所述实体识别模型收敛。5.根据权利要求4所述的方法,其特征在于,所述获取该分词的字符特征向量以及词特征向量,包括:将该分词输入训练好的第一卷积神经网络模型,得到所述字符特征向量;利用威胁情报特征词向量库中存储的威胁情报特征词向量,判断是否存在与该分词所属实体的语义相同的威胁情报特征词向量,其中,所述威胁情报特征词向量库中存储的威胁情报特征词向量是根据训练好的第一词向量模型得到的;若存在与该分词所属实体的语义相同的威胁情报特征词向量,则将该威胁情报特征词向量作为该分词的第一词特征向量;若不存在与该分词所属实体的语义相同的威胁情报特征词向量,则对所述威胁情报特征词向量库中存储的所有威胁情报特征词向量,进行均值计算,将计算结果作为该分词的第一词特征向量;将该分词输入训练好的第二词向量模型,得到该分词的第二词特征向量,其中,所述第二词向量模型与所述第一词向量模型分属于不同类型的词向量模型;将所述第一词特征向量与所述第二词特征向量进行首尾拼接,得到所述词特征向量。6.根据权利要求4所述的方法,其特征在于,所述利用所述字符特征向量以及所述词特征向量,计算该分词的深层语义特征向量,包括:将所述字符特征向量以及所述词特征向量进行首尾拼接,得到该分词的表示向量;将该训练样本中每一个分词的表示向量输入双向长短期记忆网络中,得到该训练样本中每一个分词的初始特征向量,其中,每一个分词的初始特征向量的向量维度数均相同;按照所述双向长短...

【专利技术属性】
技术研发人员:王旭仁熊子晗刘润时何松恒姜政伟施智平江钧凌志婷李小萌刘宝旭熊梦博朱新帅张小庆陈蓉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1