【技术实现步骤摘要】
一种基于课程学习的远程监督关系抽取方法
本专利技术涉及一种远程监督关系抽取方法,属于人工智能和自然语言处理
技术介绍
信息抽取(InformationExtraction)是自然语言处理中的一项基本任务,通过对非结构化文本进行处理抽取结构化信息,作为后续自然语言处理任务的输入。在知识爆炸的时代,人们每天都需要面对海量数据,合理利用信息抽取系统高效地处理文本提取有用的信息就变得极为重要。信息抽取作为自然语言处理中极为重要的一环,本身也是由一系列子任务构成的,例如命名实体识别、关系抽取和事件抽取等。关系抽取(RelationExtraction,RE)是信息抽取的一项关键技术,其目的是挖掘实体间存在的语义关系,对于知识库自动构建、问答系统等领域有着极为重要的意义。远程监督关系抽取(DistantSupervisionRelationExtraction,DSRE)通过外部知识库代替人工对语料进行标注,可以低成本地获取大量标注数据,是目前主流的关系抽取方法。知识库中有大量形如“实体1,实体2,实体1、2关系”的三元组,远程监督将一个无标注语料库对齐到已知的知识库,知识库中的每一条三元组都对应一个句子集合,这种句子集合称为包(Bag)。包中的句子都是从无标注语料库中获得,且同一个包中的句子都含有相同的实体对(即对应三元组中的两个实体)。远程监督关系抽取假设包中的每一个句子都具有对应实体对的关系,这使得在获得大量标注数据的同时,也引入了大量的噪声即错误标注的数据。远程监督关系抽取的目标是训练一 ...
【技术保护点】
1.一种基于课程学习的远程监督关系抽取方法,其特征在于,包括以下步骤:/n步骤1:获取知识库,将知识数据集中的句子,按包进行划分;/n步骤2:获取关系抽取器的相关特征,包括以下步骤:/n首先,获取包中每个句子的向量表示;/n然后,获取包中每个句子对应关系的向量表示;/n之后,获取包中每个句子的损失值;/n最后,计算当前训练进度;/n步骤3:用导师网络预测包中每个句子的权重,包括以下步骤:/n首先,通过双向长短期记忆神经网络捕捉包中句子的损失信息;/n然后,通过两个全连接层预测包的句子权重;/n步骤4:用导师网络预测出来的句子权重直接作用于关系抽取器中的句子向量,得到包对应关系的概率;/n步骤5:根据训练集和优化目标,对两个网络参数进行联合优化更新;/n步骤6:根据训练好的模型,针对未标注的包,预测该包的关系,从而获得新的三元组知识,进而挖掘出包中句子的语义信息。/n
【技术特征摘要】
20190606 CN 20191049109921.一种基于课程学习的远程监督关系抽取方法,其特征在于,包括以下步骤:
步骤1:获取知识库,将知识数据集中的句子,按包进行划分;
步骤2:获取关系抽取器的相关特征,包括以下步骤:
首先,获取包中每个句子的向量表示;
然后,获取包中每个句子对应关系的向量表示;
之后,获取包中每个句子的损失值;
最后,计算当前训练进度;
步骤3:用导师网络预测包中每个句子的权重,包括以下步骤:
首先,通过双向长短期记忆神经网络捕捉包中句子的损失信息;
然后,通过两个全连接层预测包的句子权重;
步骤4:用导师网络预测出来的句子权重直接作用于关系抽取器中的句子向量,得到包对应关系的概率;
步骤5:根据训练集和优化目标,对两个网络参数进行联合优化更新;
步骤6:根据训练好的模型,针对未标注的包,预测该包的关系,从而获得新的三元组知识,进而挖掘出包中句子的语义信息。
2.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法,其特征在于,所述步骤2,其中,获取包中每个句子的向量表示的方法如下:
令数据集中第i个包其中,n=|Bi|,表示包Bi的最后一个句子;
步骤2.1.1:得到句子中每个词语的向量表示;
对于一个句子S={w1,w2,…,w|S|},每个单词wi的向量表示,包括词嵌入表示和相对位置嵌入表示两部分,其中,词嵌入表示通过Word2vec算法在大规模文本上训练获得;相对位置嵌入表示,指句子中每个词到实体对中每个实体的相对距离嵌入到向量;词嵌入表示的维度为km,相对位置嵌入表示的维度为kd,最终得到词表示的维度为k=km+2kd;S中每个词的表示则
步骤2.1.2:用一个含有m个卷积核{f1,f2,…,fm}的分段卷积神经网络,得到句子S的向量表示;其中,fm表示第m个卷积核,每一个卷积核l表示卷积核的长度,k表示卷积核的宽度;
首先,通过m个卷积核提取卷积特征cij:
cij=fi*wj-l+1:j(1)
其中,1≤i≤m,1≤j≤|S|+l-1,wj-l+1:j表示句子S的第j-l+1个到第j个单词对应向量构成的矩阵;*为卷积操作;经过卷积后,得到矩阵
然后,对于每个卷积核fi对应的卷积结果ci,按照句子中的两个实体位置划分为三部分{ci1,ci2,ci3},进行分段最大池化操作:
pij=max(cij)(2)
其中,1≤i≤m,1≤j≤3;
每个卷积核fi对应一个3维向量pi={pi1,pi2,pi3};所有的卷积核对应向量拼接得到向量通过tanh函数,得到句子S最终向量表示:
se=tanh(p1:m)(3)
其中,ds=3m,此时句子S对应的向量表示与其长度无关;
数据集中第i个包对应一个句子向量矩阵
3.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法,其特征在于,所述步骤2,其中,获取包中每个句子对应关系的向量表示的方法如下:
令数据集中第i个包其中,n=|Bi|,表示包Bi的最后一个句子;
数据集中,实体对之间存在已知的关系总数为N,则关系集合为R={r1,r2,…,rN},将每种关系表示为维度为dr的向量,则包中的每一个句子都对应一个关系标签向量从而包Bi对应一个关系标签矩阵
4.如权利要求1所述的一种基于课程学习的远程监督关系抽取方法,其特征在于,所述步骤2,其中,获取包中每个句子的损失值的方法如下:
令数据集中第i个包其中,n=|Bi|,表示包Bi的最后一个句子;
首先,计算关系集合R中每个关系在句子S的预测得分:
o=Ws*se+bs(4)
其中,是句子的向量表示,是权重矩阵,N是关系总...
【专利技术属性】
技术研发人员:刘琼昕,王佳升,马敬,王鹏,杨敏,卢士帅,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。