【技术实现步骤摘要】
网络信息的关系抽取方法、关系抽取装置及介质
[0001]本申请涉及网络安全
,尤其涉及一种网络信息的关系抽取方法、关系抽取装置及介质。
技术介绍
[0002]网络信息是由实体和关系构成的非结构化数据,一般通过深度学习方法进行分析,但是对网络信息进行关系抽取存在数据量匮乏,标注成本高等特点。实际应用场景下,在数据匮乏的环境下训练出来的模型往往达不到预期的标准。
[0003]相关技术下,采用远程监督的方法来自动获得大量带标签的训练数据,可以为有监督的关系抽取模型提供大量的训练语料,提高模型的分类准确率,但是远程监督获取的样本数据通常存在类型分布不均的问题,即关系类型分布的频率通常服从长尾分布,并且存在许多标注错误的样本,这些都会使模型抽取性能下降。这些都影响了网络安全人员对网络信息的分析。
技术实现思路
[0004]本申请实施例提供了一种网络信息的关系抽取方法、关系抽取装置及介质,提升了在网络信息的小样本场景下的关系抽取性能。
[0005]第一方面,本申请实施例提供了一种网络信息的关系抽取方 ...
【技术保护点】
【技术特征摘要】
1.一种网络信息的关系抽取方法,其特征在于,包括:获取网络信息的样本实例,所述网络信息的每个所述样本实例被标注出实体和所述实体对应的实体关系;按照所述实体关系的类别对所述样本实例进行小样本抽取,得到N个支持集和N个查询集,所述支持集中包括K个所述样本实例,所述查询集包括Q个所述样本实例,所述N、K和Q均为正整数;通过所述支持集和所述查询集对关系抽取模型进行训练;利用经过训练的关系抽取模型对网络信息的数据进行关系抽取;其中,所述关系抽取模型包括特征抽取模块和标签预测模块;所述特征抽取模块用于对输入的所述样本实例和关系描述文本进行预训练,通过特征级注意力机制对所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量计算注意力权重,然后通过实例级注意力机制调整所述注意力权重;所述标签预测模块用于计算通过特征级注意力机制输出的局部特征向量和所述关系描述文本的全局特征向量的第一实例级原型点,以及计算通过实例级注意力机制调整后输出的特征向量的第二实例级原型点,还用于拼接所述第一实例级原型点和所述第二实例级原型点得到混合原型网络,所述混合原型网络用于根据所述查询集的所述样本实例计算到各个原型点的距离,以得到预测的关系分类结果。2.根据权利要求1所述的关系抽取方法,其特征在于,所述按照所述实体关系的类别对所述样本实例进行小样本抽取,得到N个支持集和N个查询集,包括:创建关于所述实体关系的类别的元任务;随机选择N个所述实体关系的类别,并从每个类别中随机选取K个所述样本实例分别构建所述元任务的支持集,再从每个类别中随机选取Q个所述样本实例分别构建所述元任务的查询集。3.根据权利要求1所述的关系抽取方法,其特征在于,所述预训练包括:根据预设字向量表将输入的所述样本实例和关系描述文本进行转换,得到对应的字向量;根据所述样本实例和关系描述文本生成文本向量和位置向量;按照所述样本实例和关系描述文本的对应关系,将所述字向量、所述文本向量和所述位置向量进行加和,并将加和结果作为输入向量;将所述输入向量输入到BERT模型进行预训练。4.根据权利要求3所述的关系抽取方法,其特征在于,所述将所述输入向量输入到BERT模型进行预训练,包括:通过自注意力机制对所述输入向量中每个单词进行注意力计算,得...
【专利技术属性】
技术研发人员:王海燕,鲍俊池,罗翠,杨伟民,向夏雨,李仕铸,胡宇翔,顾钊铨,
申请(专利权)人:鹏城实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。