【技术实现步骤摘要】
一种安全报告文本的三元组抽取方法、装置及电子设备
[0001]本专利技术涉及自然语言识别与分析处理
,尤其涉及一种安全报告文本的三元组抽取方法、装置及电子设备。
技术介绍
[0002]威胁情报是经过研判过的安全信息,威胁情报可用于辅助支持决策或者安全分析,未知来源和真实性的安全信息将影响决策的正确性和分析结果的准确性。信息研判分为两个方面,信息来源和信息本身。即时能够确保信息的来源可靠,但是现有技术通常是采用人工的方式从海量的安全报告中筛查和总结威胁情报,非常费时费力,并且筛查的准确度由于无法一直关注于信息本身而偏低,即人工是无法确保一定可以提取其中的关键信息的,因此需要优化安全领域文本的抽取方式和方法,成为新的发展方向。
技术实现思路
[0003]本专利技术提供了一种安全报告文本的三元组抽取方法、装置及电子设备,采用依据句法分析的方式分析安全报告文本,提取三元组,一般使用句法分析工具,将一段文本进行分句处理,依次进行分词(Segmentor)、词性标注(Postagger)、句法分析(Parser)和 ...
【技术保护点】
【技术特征摘要】
1.一种安全报告文本的三元组抽取方法,其特征在于,包括:S1,获取安全报告文本;S2,对所述安全报告文本进行分句处理;S3,利用融合外部知识构建的分词和词性标注联合模型对所述分句处理的结果进行分词处理和词性标注,输出分词与词性标注结果;S4,基于依存句法分析方法对所述分词与词性标注结果进行句法分析,获得其中的语法成分以及所述语法成分之间的关系;S5,进行语义角色标注,获得给定谓语的论元;S6,输出主谓宾形式的三元组。2.根据权利要求1所述的安全报告文本的三元组抽取方法,其特征在于,所述S2包括:将所述安全报告文本基于jieba库以标点符号进行分句处理,所述标点符号包括逗号、顿号、句号、叹号和/或问号。3.根据权利要求2所述的安全报告文本的三元组抽取方法,其特征在于,所述融合外部知识构建的分词和词性标注联合模型包括依次连接的编码层、双通道注意力模型、解码层和输出层;所述编码层包括基于安全知识图谱的K
‑
Bert模型,所述双通道注意力模型包括安全自定义词典、词性标签以及通过NLP工具箱生成的句法信息,所述解码层包括条件随机场。4.根据权利要求3所述的安全报告文本的三元组抽取方法,其特征在于,所述安全自定义词典包括安全领域的专有名词,所述专有名词包括攻击模式、攻击类型、漏洞类型、威胁组织和/或黑客组织。5.根据权利要求4所述的安全报告文本的三元组抽取方法,其特征在于,在所述S3之后和所述S4之前,包括:判断分词与词性标注结果中是否存在专有名词,若是,则将专有名词划分为主语或宾语,然后执行S4;...
【专利技术属性】
技术研发人员:周子楠,董龙飞,
申请(专利权)人:北京智源人工智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。