一种结合知识库中的三元组和实体类型的生成问题方法技术

技术编号:26792064 阅读:44 留言:0更新日期:2020-12-22 17:07
本发明专利技术公开了一种结合知识库中的三元组和实体类型的生成问题方法,所述方法一种基于注意力机制的神经网络模型:所述神经网络模型的输入为表示重构过的三元组的词向量序列,输出是通过处理词向量序列得到的一组用来表示问题的词向量序列。首先,利用三元组中的头实体和尾实体对应的实体类型对三元组进行重构,然后利用预训练好的Glove词嵌入获得表示重构得到的新三元组的词向量序列,之后利用一个基于注意力机制的门机制循环神经网络编码输入的词向量序列,再利用另一个基于注意力机制的门机制循环神经网络解码通过编码器得到的三元组的表示,最后处理解码器输出的词向量序列得到生成的问题。本发明专利技术结合了知识库中的三元组及三元组中的头实体和尾实体对应的实体类型的信息,通过一种基于注意力机制的神经网络模型得到一个语法上更流畅、与输入的三元组更相关的问题。

【技术实现步骤摘要】
一种结合知识库中的三元组和实体类型的生成问题方法
本专利技术涉及自然语言处理技术中自然语言文本生成领域,具体涉及一种结合知识库中的三元组和实体类型的生成问题方法。
技术介绍
问题生成是自然语言处理领域极一项重要的任务,近年来关于文本生成中的问题生成的的研究越来越多,根据数据源的不同,现有的方法可以分为基于知识库的问题生成,基于文本的问题生成,基于图像和文本的问题生成。目前长短时记忆网络模型(SerbanIV,Garcia-DuranA,GulcehreC,etal.GeneratingFactoidQuestionsWithRecurrentNeuralNetworks:The30MFactoidQuestion-AnswerCorpus[C]//Proceedingsofthe54thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).2016:588-598.)和注意力机制模型(LiuC,LiuK,HeS,etal.Generati本文档来自技高网...

【技术保护点】
1.一种结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述方法包括以下步骤:/n1)、利用三元组中头实体和尾实体对应的实体类型重构三元组模型:所述重构三元组模型的输入是三元组以及三元组中头实体和尾实体对应的实体类型,输出是一组基于实体类型的新三元组;/n2)、利用预训练好的词向量Glove分别获得表示新三元组中每个元素的词向量以及表示训练集中三元组所对应的问题的词向量;/n3)、通过一个由基于注意力机制的门控制循环神经单元构成的编码器编码新三元组的表示;/n4)、通过一个由基于注意力机制的门控制循环神经单元构成的解码器解码,得到的新的表示新三元组的词向量序列,从而得到一组表示生成的...

【技术特征摘要】
1.一种结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述方法包括以下步骤:
1)、利用三元组中头实体和尾实体对应的实体类型重构三元组模型:所述重构三元组模型的输入是三元组以及三元组中头实体和尾实体对应的实体类型,输出是一组基于实体类型的新三元组;
2)、利用预训练好的词向量Glove分别获得表示新三元组中每个元素的词向量以及表示训练集中三元组所对应的问题的词向量;
3)、通过一个由基于注意力机制的门控制循环神经单元构成的编码器编码新三元组的表示;
4)、通过一个由基于注意力机制的门控制循环神经单元构成的解码器解码,得到的新的表示新三元组的词向量序列,从而得到一组表示生成的问题的词向量序列;
5)、利用步骤4)中得到的词向量序列获得向量表示的词语,词向量序列是1个矩阵,这个矩阵中的每一列是1个向量,每个向量表示1个词语,每一个向量的长度等于整个词汇表中的词语个数,向量中最大维度对应的词语就是该向量表示的词语,最终将所有对应的词语组合起来就是生成的问题,将在生成的问题中出现的实体类型用对应的输入中的三元组中具体的实体替换掉,最终得到一个新的问题作为输出。


2.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述步骤1)重构三元组模型的步骤包括:
1.1)、设原始的输入数据为E={E1,E2,E3,E4,E5}序列,其中E1和E3分别表示某个三元组中的头实体和尾实体,E2则表示E1和E3之间的定义的关系,E4和E5分别表示E1和E3所对应的的实体类型;
1.2)、将实体E1和E2组成二元组实体对(E1,E2),E1和E2表示数据集中每一条标注好的实体,用E1和E2所对应的实体类型进行替换,获得新三元组e={e1,e2,e3},其中e1=E4,e2=E2,e3=E5,
1.3)、在原始的输入数据中迭代执行步骤1.1)和步骤1.2),获得由三元组重构之后的新三元组组成的新数据集,最终按比例分为新的训练集、测试集、验证集。


3.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述步骤2)具体的步骤包括:
2.1)、设输入到词向量模型的每条数据包括重构之后的新三元组e={e1,e2,e3}、重构之后的新三元组所对应的问题以及预训练好的词向量Glove;三元组所对应的问题为X={X1,X2,…,Xi}序列,其中Xi表示问题的第i个词;
2.2)、在词向量Glove中获得新三元组中每个元素对应的向量化表示以及问题中词语对应的向量化表示,将表示三元组中的元素的三个向量进行横向拼接得到一个矩阵来表示三元组,将表示问题中的每个词语的向量竖向拼接得到一个矩阵来表示问题。


4.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述步骤3)包括:
3.1)、给定一个三元组,问题是和三元组中的头实体和关系相关的,而问题的答案是三元组中的尾实体,将该三元组的向量输入到注意力机制网络中,通过注意力机制网络计算出三个权重分别表示三元组中头实体、头实体和尾实体的关系、尾实体的重要性,三元组中的元素获得的权重越大表示生成该词语的时候更应该关注该元素;
3.2)、通过对得到的三元组中每个元素的权重和每个元素的向量进行加权求和,在生成问题的每个时刻都获得一个新的三元组的表示:
vs,t=αs,tve1+αp,tve2+αo,tv...

【专利技术属性】
技术研发人员:蔡毅徐静云
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1