【技术实现步骤摘要】
一种完整实体关系抽取方法及装置
本专利技术涉及信息处理领域,具体涉及一种完整实体关系抽取方法及装置。
技术介绍
现有的基于神经网络的在有实体重叠现象时的实体关系抽取方法主要由以下步骤构成:首先将词序列进行词的向量化预处理,然后将预处理后的词序列输入编码器,编码器将输入词序列进行编码并产生输入词序列的编码表示。接着解码器读入所述编码表示,然后拷贝单个词的实体直接生成各个关系三元组。而现有的方法生成实体关系时利用了拷贝机制从输入词序列中只复制了一个词,但是很多情况下,一个实体可以包含多个词,比如实体北京稻香村包括了北京和稻香村两个词,此时在生成实体关系时每次只复制一个词作为实体,就会导致实体不准确,进而导致实体关系不准确;且这种每次只复制一个词作为一个实体,也会使得实体存在重叠关系,如实体“北京”与实体“北京稻香村”存在重叠关系,且在实体重叠情况下,现有的技术只能抽取部分实体关系,不能生成一个完整的实体关系。
技术实现思路
本专利技术提供一种完整实体关系抽取方法,用以解决实体关系抽取中出现实体重叠现象 ...
【技术保护点】
1.一种完整实体关系抽取方法,其特征在于,包括:/n步骤1,将预处理好的词序列信息输入神经网络,神经网络的编码器部分将所述词序列信息进行编码,得到输入词序列信息的编码表示,并对所述词序列信息进行标签预测,所述标签为BIO标签;/n步骤2,将所述输入词序列信息的编码表示输入到神经网络的解码器部分进行解码;/n步骤3,解码器生成的输出序列按顺序每三个元素构成一个只包含实体开始字的关系三元组,综合考虑只包含实体开始字的关系三元组和输入词序列中每个词的标签以获取包含完整实体的关系三元组,所述标签为BIO标签。/n
【技术特征摘要】
1.一种完整实体关系抽取方法,其特征在于,包括:
步骤1,将预处理好的词序列信息输入神经网络,神经网络的编码器部分将所述词序列信息进行编码,得到输入词序列信息的编码表示,并对所述词序列信息进行标签预测,所述标签为BIO标签;
步骤2,将所述输入词序列信息的编码表示输入到神经网络的解码器部分进行解码;
步骤3,解码器生成的输出序列按顺序每三个元素构成一个只包含实体开始字的关系三元组,综合考虑只包含实体开始字的关系三元组和输入词序列中每个词的标签以获取包含完整实体的关系三元组,所述标签为BIO标签。
2.如权利要求1所述的方法,其特征在于,所述步骤1将预处理好的词序列信息输入神经网络,神经网络的编码器部分将词序列信息进行编码,编码步骤,包括:
步骤S101:输入的词序列为x=[x1,x2,...xi,...xn],对所述输入的词序列进行词向量预处理,得到词向量矩阵,所述词向量矩阵为v=[v1,v2,...vi,...vn],其中,x为所述输入的词序列,v为所述词向量矩阵,n为所述词序列内词的总个数,i为所述词序列内词个数的变量,初始值为1,以1为单位递增,最大值为n,xi表示所述词序列中第i个词,vi表示所述词向量矩阵第i个词的向量;
步骤S102:每个词都经过神经网络的编码器计算单元进行处理,所述编码器的编码表示计算公式如下:
其中,E为编码(Encode)的缩写,为第i个词的编码表示,为所述输入词序列中前i个词的编码表示,为所述输入词序列前i-1个词的编码表示,为随机初始化且可学习的参数,f()为编码器计算单元;
步骤S103:利用分类器对所有词进行标签预测,所述分类器为softmax分类器,所述标签为BIO标签;
步骤S104:如果i≤n,重复步骤S102至步骤S103,否则转到步骤2。
3.如权利要求2所述的编码步骤,其特征在于,步骤S103所述利用分类器对所有词进行标签预测,所述分类器为softmax分类器,所述标签为BIO标签,包括:
对所有词进行BIO预测,即对每个词预测一个标签,对应子标签有三个,分别是B标签,I标签和O标签;
B标签,表示当前词是一个实体的开始字;
I标签,表示当前词是一个实体除开始字以外的字;
O标签,表示当前词不属于所述一个实体;
标签预测公式如下:
其中,pBIO为预测BIO标签的概率分布,WBIO和bBIO均为随机初始化且可学习的参数,softmax为分类器,所述分类器为softmax分类器,所述标签为BIO标签。
4.如权利要求1所述的方法,其特征在于,所述步骤2将输入词序列信息的编码表示输入到神经网络的解码器部分进行解码,解码步骤,包括:
步骤S201:所述解码器解码模型计算公式如下:
其中,t为当前解码时刻,D为解码(Decode)的缩写,为解码器在t时刻的输出向量,是解码器在t时刻的隐状态,为第t-1个解码时刻的隐状态,u0均为随机初始化且可学习的参数,g()为解码器计算单元,ut为第t个解码时刻解码器的输入;
步骤S202:如果t%3=1,利用关系预测函数对所述词序列信息进行关系预测,使用分类器来获取所预测的关系;如果t%3≠1转到步骤S203;所述关系预测函数如下:
其中,pl为所述关系的概率分布,wl与bl均为随机初始化且可学习的参数,所述分类器为softmax分类器;
步骤S203:如果t%3=2,利用拷贝机制从输入词序列中选择一个词复制过来作为第一个实体的开始字,使用分类器来选择需要拷贝的实体;如果t%3≠2转到步骤S204,所述分类器来选择需要拷贝的实体计算公式如下:
其中,pe为各个词拷贝的概率,we、be均为随机初始化且可学习的参数,所述分类器为softmax分类器;
步骤S204:如果t%3=0,利用拷贝机制从输入词序列中选择一个词复制过来作为第二个实体的开始字,采用的公式为所述分类器来选择需要拷贝的实体计算公式;
步骤S205:如果t<T,其中T为解码时刻的最大值,并且满足T=3m,m为正整数,取值范围为m∈{1,2,3,...,m},重复按序执行所述步骤S201至S204,否则转到步骤S206;
步骤S206:如果t=T,结束解码过程。
5.如权利要求1所述的方法,其特征在于,所述步骤3所述解码器生成的输出序列按顺序每三个元素构成一个只包含实体开始字的关系三元组,综合考虑只包含实体开始字的关系三元组和输入词序列中每个词的BIO标签以获取包含完整实体的关系三元组,完整关系三元组抽取步骤,包括:
步骤S301:给定一个只包含实体开始字的关系三元组以及输入词序列中每个词的标签,所述标签为BIO标签;
步骤S302:取出所述只包含实体开始字的关系三元组中的第一个实体的开始字,找到所述第一个实体在输入词序列中对应的BIO标签,如果所述第一个实体的开始字对应的标签是B标签,则将词序列中所述第一个实体的开始字后面连续标签为I标签的字取出,直到出现O标签时结束,取出B标签对应的字拼接在所述第一个实体的开始字后面,作为抽取得到的第一个完整实体;
步骤S303:取出所述只包含实体开始字的关系三元组中的第二个实体的开始字,找到所述第二个实体在输入词序列中对应的BIO标签,如果所述第二个实体的开始字对应的标签是B标签,则将词序列中所述第二个实体的开始字后面连续标签为I标签的字取出,直到出现O标签时结束,取出B标签对应的字拼接在所述第二个实体的开始字后面,作为抽取得到的第二个完整实体;
步骤S304:取出只包含实体开始字的关系三元组中的关系,与步骤S303和步骤S302中所述完整实体构成一个完整的关系三元组;
步骤S305:如果还有未处理的只包含实体开始字的关系三元组,则按序重复执行步骤S301、步骤S302、步骤S30...
【专利技术属性】
技术研发人员:曾祥荣,
申请(专利权)人:云知声智能科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。