一种基于课程学习的远程监督关系抽取方法技术

技术编号:24252009 阅读:41 留言:0更新日期:2020-05-22 23:49
本发明专利技术公开了一种基于课程学习的远程监督关系抽取方法,属于人工智能和自然语言处理技术领域。本方法将关系抽取器看作学生网络,针对关系抽取任务,设计一个导师网络来监督关系抽取器的训练过程。导师网络接收关系抽取器的相关特征信息输入,学习出包中每个句子的权重,然后将其反馈到关系抽取器中,使得质量好的句子更多参与到关系抽取器的训练过程中。本方法为了高效地协同训练两个网络,在交替局部梯度下降方法基础上进行改进,提出一种适用于关系抽取任务的联合优化方法。本发明专利技术提高了噪声环境下关系抽取的效果,在主流的关系抽取数据集中优于传统方法。

A method of distance supervision relationship extraction based on course learning

【技术实现步骤摘要】
一种基于课程学习的远程监督关系抽取方法
本专利技术涉及一种远程监督关系抽取方法,属于人工智能和自然语言处理

技术介绍
信息抽取(InformationExtraction)是自然语言处理中的一项基本任务,通过对非结构化文本进行处理抽取结构化信息,作为后续自然语言处理任务的输入。在知识爆炸的时代,人们每天都需要面对海量数据,合理利用信息抽取系统高效地处理文本提取有用的信息就变得极为重要。信息抽取作为自然语言处理中极为重要的一环,本身也是由一系列子任务构成的,例如命名实体识别、关系抽取和事件抽取等。关系抽取(RelationExtraction,RE)是信息抽取的一项关键技术,其目的是挖掘实体间存在的语义关系,对于知识库自动构建、问答系统等领域有着极为重要的意义。远程监督关系抽取(DistantSupervisionRelationExtraction,DSRE)通过外部知识库代替人工对语料进行标注,可以低成本地获取大量标注数据,是目前主流的关系抽取方法。知识库中有大量形如“实体1,实体2,实体1、2关系”的三元组,远程监督将一个无标注语料库对齐到已知的知识库,知识库中的每一条三元组都对应一个句子集合,这种句子集合称为包(Bag)。包中的句子都是从无标注语料库中获得,且同一个包中的句子都含有相同的实体对(即对应三元组中的两个实体)。远程监督关系抽取假设包中的每一个句子都具有对应实体对的关系,这使得在获得大量标注数据的同时,也引入了大量的噪声即错误标注的数据。远程监督关系抽取的目标是训练一个关系抽取器,然后针对一个未标注的包(在知识库中该包的实体对间不存在关系),预测该包的关系,从而得到一个新的知识(三元组)。训练数据含有大量的噪声会导致神经网络拟合到噪声上,影响关系抽取的效果。目前,缓解噪声数据的主流方法是多实例学习(MultiInstanceLearning),即从一个包中只选出一个句子来预测该包对应实体对的关系,但包中往往有多个标注正确的句子,并且有些句子可能隐式地表示了包的关系,因此多实例学习浪费了数据集中大量句子的语义信息。
技术实现思路
本专利技术的目的是为了解决现有的远程监督关系抽取方法在噪声环境下抽取效果差,无法充分挖掘包中句子的语义信息的技术问题,创造性地提出一种基于课程学习的远程监督关系抽取方法。本专利技术所述方法,将关系抽取器看作学生网络(StudentNet),针对关系抽取任务,设计一个导师网络(MentorNet)来监督关系抽取器的训练过程。导师网络接收关系抽取器的相关特征信息输入,学习出包中每个句子的权重,然后将其反馈到关系抽取器中,使得质量好的句子更多参与到关系抽取器的训练过程中。同时,本方法为了高效地协同训练两个网络,在交替局部梯度下降方法基础上进行改进,提出了一个适用于关系抽取任务的联合优化方法。有益效果本专利技术方法与现有技术相比,具有如下有益效果:本专利技术将课程学习领域的导师网络引入到远程监督关系抽取领域,并对相关算法进行改进,提高了噪声环境下关系抽取的效果。本方法制定了一个针对关系抽取的导师网络,使其在训练时考虑了关系抽取器中的特征,更加充分挖掘了包内句子信息。协同训练两个网络使之达到数据正则化的效果,提升了关系抽取器泛化能力。本方法在主流的关系抽取数据集中取得了优于传统方法的效果。附图说明图1是本方法的整体框架图;图2是PCNN的结构图;图3是针对关系抽取的导师网络结构图;图4是本专利技术方法与一些目前存在方法的Precision/Recall曲线图。具体实施方式下面结合附图对本专利技术方法做进一步详细说明。本实施例详细阐述了本方法在关系抽取主流数据集下具体实施时的方法和效果。如图1所示,一种基于课程学习的远程监督关系抽取方法,包括以下步骤:步骤1:获取知识库,将知识数据集中的句子,按包进行划分。将知识数据集中的句子按照对应的实体对划分成包,使包中的句子具有相同的实体对,并将该实体对对应的关系赋给每个句子。步骤2:获取关系抽取器的相关特征。令数据集中第i个包其中,n=|Bi|,表示包Bi的最后一个句子。具体包括以下步骤:步骤2.1:获取包中每个句子的向量表示(SentenceEmbedding)。如图2所示,包括以下步骤:步骤2.1.1:得到句子中每个词语的向量表示。对于一个句子S={w1,w2,…,w|S|},每个单词wi的向量表示,包括词嵌入表示(WordEmbedding)和相对位置嵌入表示(PositionEmbedding)两部分。其中,词嵌入表示通过Word2vec算法在大规模文本上训练获得。相对位置嵌入表示,指句子中每个词到实体对中每个实体的相对距离嵌入到向量。词嵌入表示的维度为km,相对位置嵌入表示的维度为kd,最终得到词表示的维度为k=km+2kd;S中每个词的表示则步骤2.1.2:用一个含有m个卷积核{f1,f2,…,fm}的分段卷积神经网络(PiecewiseConvolutionalNeuralNetwork,PCNN),得到句子S的向量表示。其中,fm表示第m个卷积核,每一个卷积核l表示卷积核的长度,k表示卷积核的宽度。首先,通过m个卷积核提取卷积特征cij:cij=fi*wj-l+1:j(1)其中,1≤i≤m,1≤j≤|S|+l-1,wj-l+1:j表示句子S的第j-l+1个到第j个单词对应向量构成的矩阵;*为卷积操作。经过卷积后,得到矩阵然后,对于每个卷积核fi对应的卷积结果ci,按照句子中的两个实体位置划分为三部分{ci1,ci2,ci3},进行分段最大池化操作:pij=max(cij)(2)其中,1≤i≤m,1≤j≤3。每个卷积核fi对应一个3维向量pi={pi1,pi2,pi3}。所有的卷积核对应向量拼接得到向量通过tanh函数,得到句子S最终向量表示:se=tanh(p1:m)(3)其中,ds=3m,此时句子S对应的向量表示与其长度无关。数据集中第i个包对应一个句子向量矩阵步骤2.2:获取包中每个句子对应关系的向量表示(LabelEmbedding)。数据集中,实体对之间存在已知的关系总数为N,则关系集合为R={r1,r2,…,rN},可以通过Embedding技术等,将每种关系表示为维度为dr的向量,则包中的每一个句子都对应一个关系标签向量从而包Bi对应一个关系标签矩阵步骤2.3:获取包中每个句子的损失值。包括以下步骤:首先,计算关系集合R中每个关系在句子S的预测得分:o=Ws*se+bs(4)其中,是句子的向量表示,是权重矩阵,N是关系总数,表示偏置。句子S对应的关系标签ri的预测分数为然后,利用Softmax计算关系ri的概率:其中,θ为关系抽取器中可训练参数,oj表示关系集合中第j个关系在句子S的预测得本文档来自技高网
...

【技术保护点】
1.一种基于课程学习的远程监督关系抽取方法,其特征在于,包括以下步骤:/n步骤1:获取知识库,将知识数据集中的句子,按包进行划分;/n步骤2:获取关系抽取器的相关特征,包括以下步骤:/n首先,获取包中每个句子的向量表示;/n然后,获取包中每个句子对应关系的向量表示;/n之后,获取包中每个句子的损失值;/n最后,计算当前训练进度;/n步骤3:用导师网络预测包中每个句子的权重,包括以下步骤:/n首先,通过双向长短期记忆神经网络捕捉包中句子的损失信息;/n然后,通过两个全连接层预测包的句子权重;/n步骤4:用导师网络预测出来的句子权重直接作用于关系抽取器中的句子向量,得到包对应关系的概率;/n步骤5:根据训练集和优化目标,对两个网络参数进行联合优化更新;/n步骤6:根据训练好的模型,针对未标注的包,预测该包的关系,从而获得新的三元组知识,进而挖掘出包中句子的语义信息。/n

【技术特征摘要】
20190606 CN 20191049109921.一种基于课程学习的远程监督关系抽取方法,其特征在于,包括以下步骤:
步骤1:获取知识库,将知识数据集中的句子,按包进行划分;
步骤2:获取关系抽取器的相关特征,包括以下步骤:
首先,获取包中每个句子的向量表示;
然后,获取包中每个句子对应关系的向量表示;
之后,获取包中每个句子的损失值;
最后,计算当前训练进度;
步骤3:用导师网络预测包中每个句子的权重,包括以下步骤:
首先,通过双向长短期记忆神经网络捕捉包中句子的损失信息;
然后,通过两个全连接层预测包的句子权重;
步骤4:用导师网络预测出来的句子权重直接作用于关系抽取器中的句子向量,得到包对应关系的概率;
步骤5:根据训练集和优化目标,对两个网络参数进行联合优化更新;
步骤6:根据训练好的模型,针对未标注的包,预测该包的关系,从而获得新的三元组知识,进而挖掘出包中句子的语义信息。


2.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法,其特征在于,所述步骤2,其中,获取包中每个句子的向量表示的方法如下:
令数据集中第i个包其中,n=|Bi|,表示包Bi的最后一个句子;
步骤2.1.1:得到句子中每个词语的向量表示;
对于一个句子S={w1,w2,…,w|S|},每个单词wi的向量表示,包括词嵌入表示和相对位置嵌入表示两部分,其中,词嵌入表示通过Word2vec算法在大规模文本上训练获得;相对位置嵌入表示,指句子中每个词到实体对中每个实体的相对距离嵌入到向量;词嵌入表示的维度为km,相对位置嵌入表示的维度为kd,最终得到词表示的维度为k=km+2kd;S中每个词的表示则
步骤2.1.2:用一个含有m个卷积核{f1,f2,…,fm}的分段卷积神经网络,得到句子S的向量表示;其中,fm表示第m个卷积核,每一个卷积核l表示卷积核的长度,k表示卷积核的宽度;
首先,通过m个卷积核提取卷积特征cij:
cij=fi*wj-l+1:j(1)
其中,1≤i≤m,1≤j≤|S|+l-1,wj-l+1:j表示句子S的第j-l+1个到第j个单词对应向量构成的矩阵;*为卷积操作;经过卷积后,得到矩阵
然后,对于每个卷积核fi对应的卷积结果ci,按照句子中的两个实体位置划分为三部分{ci1,ci2,ci3},进行分段最大池化操作:
pij=max(cij)(2)
其中,1≤i≤m,1≤j≤3;
每个卷积核fi对应一个3维向量pi={pi1,pi2,pi3};所有的卷积核对应向量拼接得到向量通过tanh函数,得到句子S最终向量表示:
se=tanh(p1:m)(3)
其中,ds=3m,此时句子S对应的向量表示与其长度无关;
数据集中第i个包对应一个句子向量矩阵


3.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法,其特征在于,所述步骤2,其中,获取包中每个句子对应关系的向量表示的方法如下:
令数据集中第i个包其中,n=|Bi|,表示包Bi的最后一个句子;
数据集中,实体对之间存在已知的关系总数为N,则关系集合为R={r1,r2,…,rN},将每种关系表示为维度为dr的向量,则包中的每一个句子都对应一个关系标签向量从而包Bi对应一个关系标签矩阵


4.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法,其特征在于,所述步骤2,其中,获取包中每个句子的损失值的方法如下:
令数据集中第i个包其中,n=|Bi|,表示包Bi的最后一个句子;
首先,计算关系集合R中每个关系在句子S的预测得分:
o=Ws*se+bs(4)
其中,是句子的向量表示,是权重矩阵,N是关系总...

【专利技术属性】
技术研发人员:刘琼昕王佳升马敬王鹏杨敏卢士帅
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1