当前位置: 首页 > 专利查询>浙江大学专利>正文

一种低资源场景下的知识三元组抽取方法技术

技术编号:26762777 阅读:28 留言:0更新日期:2020-12-18 23:16
本发明专利技术公开了一种低资源场景下的知识三元组抽取方法,通过使用元训练语料训练元模型的方式,指导测试语料训练出泛化性能很好的模型。在元模型训练阶段,通过构造实体对原型和关系原型的方式学习度量查询集与支持集的距离,保证了元模型可以更好的利用低资源的少量样本。同时在抽取知识三元组的过程中,引入知识约束,保证了实体对和关系的内在交互性,可以同时增强两者抽取的性能。

【技术实现步骤摘要】
一种低资源场景下的知识三元组抽取方法
本专利技术属于数据存储处理
,具体涉及一种低资源场景下的知识三元组抽取方法。
技术介绍
知识图谱以结构化的形式描述客观世界中的概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱主要包含实体、关系和三元组,每一个三元组表示一条知识。当两个实体之间存在某一种关系时,用<h,r,t>表示一个三元组,其中h,t分别表示头实体和尾实体,r表示关系,例如<浙江,省会,杭州>即表示了“杭州是浙江的省会”这么一条知识。知识三元组抽取是知识图谱构建和信息抽取中的一个关键环节,具有重要的理论意义和广阔的应用前景,为多种应用提供重要的支持。如大规模知识图谱自动化构建,包括WordNet、HowNet等常识知识图谱中的通用语义知识,以及金融、医疗等垂直应用领域的定制知识图谱。信息检索、智能推荐、问答系统等知识图谱应用技术的优劣程度也严重依赖于上层图谱构建的质量。目前知识三元组抽取的方法,主要分为基于规则的方法和基于机器学习的方法。传统专家依靠预定义好的规则手工编撰的方式构建知识库,不仅费时费力,而且存在知识覆盖率低、数据稀疏、更新缓慢等缺点。基于机器学习的方法则可以自动化地抽取三元组。自从深度学习发展起来后,学者侧重于使用深度神经网络模型处理知识抽取任务。深度学习的方法抽取知识三元组,目前主要有多步抽取和端到端抽取两种方式。多步抽取即先识别出文本语料中的实体,标注出头实体h和尾实体t,再抽取出两者的关系r。这种方式会导致错误传播,第一步抽取中的错误会传递到第二步中,导致整体的正确率下降。而端到端抽取可避免这种错误传播,使用一个模型一次抽取出三元组中的实体对和对应关系,避免误差传播的同时,在抽取过程也可以增加实体和关系的交互,互相增强抽取性能。但是深度学习的算法模型往往需要大量的标注语料才能够训练出范化性能较好的模型,而真实场景下数据标注成本较高且费时费力,探究如何使用更少的标注数据就可以训练的模型是当前研究的重点。
技术实现思路
本专利技术的目的是提供一种低资源场景下的知识三元组抽取方法,来提升低资源场景下提取三元组的准确性。为实现上述专利技术目的,本专利技术提供以下技术方案:一种低资源场景下的知识三元组抽取方法,包括以下步骤:(1)采集低资源场景下的文本语句作为测试样本;从元训练语料中采样与测试样本的关系类别个数相同的一批文本语句组成元支持集,再从元训练语料中采样与测试样本的关系类别个数相同的另外一批文本语句组成元查询集;(2)构建包括编码单元、标注单元、原型构建单元、匹配单元的元模型,其中,编码单元用于对文本语句编码得到文本编码向量,标注单元用于对文本编码向量进行头尾实体标注,原型构建单元用于根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型,匹配单元用于根据其他文本语句的文本编码向量与头实体原型、尾实体原型和关系原型相匹配,以提取文本语句中三元组;(3)根据标注单元的标注损失和匹配单元的匹配损失构建元模型的总损失,将元支持集和元查询集作为元模型的训练样本集,利用总损失对元模型进行训练,以优化编码单元和标注单元参数,得到预训练好的元模型;(4)利用测试文本语句对预训练好的元模型再训练,得到适用于低资源场景的抽取模型和头实体原型、尾实体原型和关系原型;(5)将查询文本语句输入至抽取模型中,通过对查询样本的向量编码、向量标注以及原型匹配,得到抽取的知识三元组。与现有技术相比,本专利技术具有的有益效果为:实施例提供的低资源场景下的知识三元组抽取方法,能够很好的应用于训练语料很少的场景,即保证了低资源场景下的训练模型的泛化性能,防止模型过拟合。通过引入知识约束的方式保证了实体对和关系的在训练过程中的交互性,可以同时增强两者的抽取性能,提升了低资源场景下的知识三元组抽取准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。图1是本专利技术实施例提供的低资源场景下的知识三元组抽取方法的流程图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。为了解决低资源场景下,三元组抽取困难且不准确的问题,本专利技术提供了低资源场景下的知识三元组抽取方法,首先通过样本容易获得的元预料对元模型进行预训练,然后再用低资源场景的样本对预训练的元模型进行一次参数优化,这样参数优化的模型可以能够提取资源场景的三元组,以此来提升三元组的提取准确性。图1是本专利技术实施例提供的低资源场景下的知识三元组抽取方法的流程图。如图1所示,实施例提供的知识三元组抽取方法包括以下步骤:步骤1,构建测试样本集、查询样本集、元支持集以及元查询集。采集低资源场景下的测试语料Dtest,并将测试语料Dtest分为测试支持集Dtest-support和测试查询集Dtest-query,目的是使用标注样本很少的测试支持集Dtest-support训练出范化性能很好的抽取模型,并在测试查询集Dtest-query上验证抽取模型的性能。测试支持集Dtest-support包含N个类别,每个类别下有K个标注样本,那么称此训练任务为N-wayK-shot任务,可以认为是一个批次包括N*K个测试文本语句。该N*K个测试文本语句对于学习模型来说,数量实在太少,不足以训练学习模型。相比较于当前低资源领域的场景,可以在互联网中获得大量的其他领域下的样本数据,用以构成元训练语料Dtest。这些元训练语料Dtest可以直接从网络搜索获得,已经是一些成熟的样本数据。例如,针对医疗垂直领域下的低资源场景知识三元组抽取,可以在互联网中找寻到娱乐、体育等其他领域下的知识三元组抽取标注语料。则娱乐垂直领域的具有标注的文本语句作为元训练语料。这部分元训练语料标注样本很多,但是所包含的标注类别和测试语料Dtest完全不同,没有办法直接复用这部分数据。但是可以利用元训练语料Dmeta训练出元模型来指导在低资源的测试语料下训练出范化性能很好的模型。由于元训练语料Dmeta数据量庞大,可以模仿N-wayK-shot设定,从元训练语料Dmeta中采样一批元支持集Dmeta-support,其中包括采样的N个类别,每个类别采样K个样本,构造类似于测试支持集Dtest-support的样本量,再从相同的N个类别采样一批元查询集Dmeta-query,每个类别采样K个样本,构造类似于测试查询集Dtest-query的样本量,如此方式就从元训练语料Dmeta中采样到了一本文档来自技高网
...

【技术保护点】
1.一种低资源场景下的知识三元组抽取方法,其特征在于,包括以下步骤:/n(1)采集低资源场景下的文本语句作为测试样本;从元训练语料中采样与测试样本的关系类别个数相同的一批文本语句组成元支持集,再从元训练语料中采样与测试样本的关系类别个数相同的另外一批文本语句组成元查询集;/n(2)构建包括编码单元、标注单元、原型构建单元、匹配单元的元模型,其中,编码单元用于对文本语句编码得到文本编码向量,标注单元用于对文本编码向量进行头尾实体标注,原型构建单元用于根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型,匹配单元用于根据其他文本语句的文本编码向量与头实体原型、尾实体原型和关系原型相匹配,以提取文本语句中三元组;/n(3)根据标注单元的标注损失和匹配单元的匹配损失构建元模型的总损失,将元支持集和元查询集作为元模型的训练样本集,利用总损失对元模型进行训练,以优化编码单元和标注单元参数,得到预训练好的元模型;/n(4)利用测试文本语句对预训练好的元模型再训练,得到适用于低资源场景的抽取模型和头实体原型、尾实体原型和关系原型;/n(5)将查询文本语句输入至抽取模型中,通过对查询样本的向量编码、向量标注以及原型匹配,得到抽取的知识三元组。/n...

【技术特征摘要】
1.一种低资源场景下的知识三元组抽取方法,其特征在于,包括以下步骤:
(1)采集低资源场景下的文本语句作为测试样本;从元训练语料中采样与测试样本的关系类别个数相同的一批文本语句组成元支持集,再从元训练语料中采样与测试样本的关系类别个数相同的另外一批文本语句组成元查询集;
(2)构建包括编码单元、标注单元、原型构建单元、匹配单元的元模型,其中,编码单元用于对文本语句编码得到文本编码向量,标注单元用于对文本编码向量进行头尾实体标注,原型构建单元用于根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型,匹配单元用于根据其他文本语句的文本编码向量与头实体原型、尾实体原型和关系原型相匹配,以提取文本语句中三元组;
(3)根据标注单元的标注损失和匹配单元的匹配损失构建元模型的总损失,将元支持集和元查询集作为元模型的训练样本集,利用总损失对元模型进行训练,以优化编码单元和标注单元参数,得到预训练好的元模型;
(4)利用测试文本语句对预训练好的元模型再训练,得到适用于低资源场景的抽取模型和头实体原型、尾实体原型和关系原型;
(5)将查询文本语句输入至抽取模型中,通过对查询样本的向量编码、向量标注以及原型匹配,得到抽取的知识三元组。


2.如权利要求1所述的低资源场景下的知识三元组抽取方法,其特征在于,所述编码单元采用语言预训练模型BERT,将文本语句中词语映射成词嵌入向量,组成文本编码向量。


3.如权利要求1所述的低资源场景下的知识三元组抽取方法,其特征在于,所述标注单元采用条件随机场(CRF)对文本编码向量做序列标注任务,获得文本语句中头尾实体位置,实体标记集合为:{B-Head,I-Head,B-Tail,I-Tail,O},其中,B-Head,I-Head分别表示头实体的开始位置和之后位置信息,B-Tail,I-Tail分别表示尾实体的开始位置和之后位置信息,O为非实体标注信息。


4.如权利要求1所述的低资源场景下的知识三元组抽取方法,其特征在于,所述原型构建单元根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型的过程为:
以头实体、尾实体的第一个位置向量表征整个头实体信息、尾实体信息;
根据每个关系类别对应的所有文本语句中的头实体信息和尾实体信息,计算每个关系类别对应的头实体原型Headproto、尾实体原型Tailproto和关系原型Relationproto:




...

【专利技术属性】
技术研发人员:陈华钧余海阳张宁豫邓淑敏
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1