关系抽取模型的训练方法、关系抽取方法、设备及介质技术

技术编号:27251626 阅读:14 留言:0更新日期:2021-02-04 12:28
本发明专利技术提供一种关系抽取模型的训练方法、关系抽取方法、设备及介质,涉及威胁情报关系处理技术领域。该方法包括:对数据集中每个文本语料中的多个句子实例进行特征处理,得到每个句子实例的初始特征;通过特征转换器对初始特征进行转换,得到每个句子实例的句子特征;通过句子实例选择器,根据每个句子实例的句子特征,从多个句子实例中选择目标句子实例;通过关系分类器对目标句子实例进行关系分类,得到目标句子实例的实体关系分类结果;根据实体关系分类结果和预先标注实体关系,对句子实例选择器和关系分类器的参数进行训练优化,得到目标关系抽取模型。本发明专利技术通过优化关系抽取模型,提高模型的关系分类精度。提高模型的关系分类精度。提高模型的关系分类精度。

【技术实现步骤摘要】
关系抽取模型的训练方法、关系抽取方法、设备及介质


[0001]本专利技术涉及威胁情报关系处理
,具体而言,涉及一种关系抽 取模型的训练方法、关系抽取方法、设备及介质。

技术介绍

[0002]伴随着互联网的迅猛发展,针对组织和公司的威胁和变体源源不断。 不仅政府和公共部门临着前所未有的网络攻击,基础设施遭受黑客攻击, 而且个人和企业也容易受到网络攻击,造成隐私、财务和经济等各方面的 持续威胁。逐渐升级的APT(Advanced Persistent Threat,高级持续性威胁) 攻击手法使原先的威胁应对措施很难解决实质性网络威胁。因此,网络空 间安全机构正在寻求各种手段增加威胁情报数据的知识库,从而更好地为 安全团队提供最新的攻击手段和威胁解决方案的开发。对威胁情报进行收 集,分析和深度研究,以动态扩展的威胁解决方案来应对攻击者的入侵。
[0003]在现有的威胁情报的实体关系提取方法中,多采用传统的依赖人工和 规则的实体关系提取方法,对句子特征的提取不够完整,对噪音数据的过 滤不够充分,使得威胁情报的实体关系提取的准确率比较低。

技术实现思路

[0004]本专利技术的目的在于,针对上述现有技术中的不足,提供一种关系抽取 模型的训练方法、关系抽取方法、设备及介质,以便快速识别威胁情报中 实体之间的关系,并提高实体关系提取的准确率。
[0005]为实现上述目的,本专利技术实施例采用的技术方案如下:
[0006]第一方面,本专利技术实施例提供了一种关系抽取模型的训练方法,所述 关系抽取模型包括:特征转换器、句子实例选择器和关系分类器,所述方 法包括:
[0007]对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理, 得到每个句子实例的初始特征;其中,所述关系抽取数据集包括:多个文 本语料,每个句子实例为预先标注有实体关系的威胁情报文本;
[0008]通过所述特征转换器,对所述每个句子实例的初始特征进行特征转换, 得到所述每个句子实例的句子特征;
[0009]通过所述句子实例选择器,根据所述每个句子实例的句子特征,从所 述多个句子实例中选择目标句子实例;
[0010]通过所述关系分类器对所述目标句子实例进行关系分类,得到所述目 标句子实例的实体关系分类结果;
[0011]根据所述实体关系分类结果和预先标注的实体关系,对所述句子实例 选择器和所述关系分类器的参数进行训练优化,得到目标关系抽取模型, 所述目标关系抽取模型包括:训练优化后的所述句子实例选择器和训练优 化后的关系分类器。
[0012]具体的,所述对关系抽取数据集中的每个文本语料中的多个句子实例 进行特征
处理之前,所述方法还包括:
[0013]根据预先构建的威胁情报的实体关系知识库,采用远程监督方法,对 多个威胁情报文本进行实体关系的远程监督标注,得到所述多个句子实例。
[0014]具体的,所述根据预先构建的威胁情报的实体关系知识库,采用远程 监督方法,对多个威胁情报文本进行实体关系的远程监督标注,得到所述 多个句子实例之前,所述方法还包括:
[0015]根据预先确定的威胁情报的实体关系列表,从开源结构化数据中构建 所述实体关系知识库;其中,每个威胁情报文本为非结构化的威胁情报文 本。
[0016]具体的,所述根据预先确定的威胁情报的实体关系列表,从开源结构 化数据中构建所述实体关系知识库之前,所述方法还包括:
[0017]根据预先获取的开源威胁情报报告以及预设的威胁情报实体规范,确 定威胁情报实体关系;
[0018]根据所述威胁情报实体关系进行筛选,并根据筛选后的所述威胁情报 实体关系,构建所述威胁情报的实体关系列表。
[0019]具体的,所述多个句子实例的初始特征包括:词向量、位置向量和实 体类型向量;
[0020]所述对关系抽取数据集中的每个文本语料中的多个句子实例进行特征 处理,得到每个句子实例的初始特征,包括:
[0021]采用预设的词向量语言模型,对所述每个句子实例进行特征处理,得 到所述每个句子实例的词向量;
[0022]根据所述每个句子实例中每个词与所述每个句子实例中实体的相对距 离,得到所述每个句子实例的位置向量;
[0023]采用预设的标注方法,对所述每个句子实例中的实体类型进行标注, 得到所述每个句子实例中的实体类型向量。
[0024]具体的,所述采用预设的标注方法,对所述每个句子实例中的实体类 型进行标注,得到所述每个句子实例中的实体类型向量,包括:
[0025]采用所述标注方法,对所述每个句子实例中各个词是否属于预设的实 体类型,以及属于所述预设的实体类型时,对应词在所述每个句子实例中 的相对位置进行标注,得到所述每个句子实例中的实体类型向量。
[0026]具体的,所述实体关系分类结果表示为:识别到的实体关系,所述预 先标注的实体关系表示为:预设实体关系的标注信息;
[0027]所述根据所述实体关系分类结果,和预先标注的实体关系,对所述句 子实例选择器和所述关系分类器的参数进行训练优化,得到目标关系抽取 模型,包括:
[0028]根据所述识别到的实体关系,和所述预设实体关系的标注信息,采用 预设的反馈函数计算所述目标句子实例的质量指标;
[0029]根据所述质量指标,计算所述句子实例选择器对应的策略函数的调整 误差;
[0030]根据所述调整误差,对所述策略函数的参数进行调整,使得所述句子 实例选择器基于参数调整后的所述策略函数进行句子实例的选择。
[0031]第二方面,本专利技术实施例还提供了一种关系抽取方法,应用于关系抽 取模型,所述关系抽取模型包括:特征转换器、句子实例选择器和关系分 类器,所述方法包括:
[0032]对待识别文本中的多个句子实例进行特征处理,得到每个句子实例的 初始特征;
[0033]对所述每个句子实例的初始特征进行特征转换,得到所述每个句子实 例的句子特征;
[0034]通过所述句子实例选择器,根据所述每个句子实例的句子特征,从所 述多个句子实例中选择目标句子实例;
[0035]通过所述关系分类器对所述目标句子实例进行关系分类,得到所述待 识别文本的实体关系分类结果。
[0036]第三方面,本专利技术实施例还提供一种关系抽取模块的训练装置,包括:
[0037]样本特征处理模块,用于对关系抽取数据集中的每个文本语料中的多 个句子实例进行特征处理,得到每个句子实例的初始特征;其中,所述关 系抽取数据集包括:多个文本语料,所述每个句子实例为预先标注有实体 关系的威胁情报文本;
[0038]样本特征转换模块,用于对所述每个句子实例的初始特征进行特征转 换,得到所述每个句子实例的句子特征;
[0039]样本句子实例选择模块,用于根据所述每个句子实例的句子特征,从 所述多个句子实例中选择目标句子实例;
[0040]样本关系分类模块,用于对所述目标句子实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关系抽取模型的训练方法,其特征在于,所述关系抽取模型包括:特征转换器、句子实例选择器和关系分类器,所述方法包括:对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理,得到每个句子实例的初始特征;其中,所述关系抽取数据集包括:多个文本语料,每个句子实例为预先标注有实体关系的威胁情报文本;通过所述特征转换器,对所述每个句子实例的初始特征进行特征转换,得到所述每个句子实例的句子特征;通过所述句子实例选择器,根据所述每个句子实例的句子特征,从所述多个句子实例中选择目标句子实例;通过所述关系分类器对所述目标句子实例进行关系分类,得到所述目标句子实例的实体关系分类结果;根据所述实体关系分类结果和预先标注的实体关系,对所述句子实例选择器和所述关系分类器的参数进行训练优化,得到目标关系抽取模型,所述目标关系抽取模型包括:训练优化后的所述句子实例选择器和训练优化后的关系分类器。2.根据权利要求1所述的训练方法,其特征在于,所述对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理之前,所述方法还包括:根据预先构建的威胁情报的实体关系知识库,采用远程监督方法,对多个威胁情报文本进行实体关系的远程监督标注,得到所述多个句子实例。3.根据权利要求2所述的训练方法,其特征在于,所述根据预先构建的威胁情报的实体关系知识库,采用远程监督方法,对多个威胁情报文本进行实体关系的远程监督标注,得到所述多个句子实例之前,所述方法还包括:根据预先确定的威胁情报的实体关系列表,从开源结构化数据中构建所述实体关系知识库;其中,每个威胁情报文本为非结构化的威胁情报文本。4.根据权利要求3所述的训练方法,其特征在于,所述根据预先确定的威胁情报的实体关系列表,从开源结构化数据中构建所述实体关系知识库之前,所述方法还包括:根据预先获取的开源威胁情报报告以及预设的威胁情报实体规范,确定威胁情报实体关系;根据所述威胁情报实体关系进行筛选,并根据筛选后的所述威胁情报实体关系,构建所述威胁情报的实体关系列表。5.根据权利要求1所述的训练方法,其特征在于,所述每个句子实例的初始特征包括:词向量、位置向量和实体类型向量;所述对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理,得到每个句子实例的初始特征,包括:采用预设的词向量语言模型,对所述每个句...

【专利技术属性】
技术研发人员:王旭仁江钧汪秋云杨杰姜政伟刘宝旭
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1