一种基于推理的难度可控问题生成方法技术

技术编号:25346056 阅读:40 留言:0更新日期:2020-08-21 17:05
本发明专利技术公开了一种基于推理的难度可控问题生成的方法,包括:识别文本中的命名实体,根据设定的实体连结关系构建实体网络图;分别通过词嵌入方法和难度嵌入矩阵对自然语言文本编码得到其语义表示和难度表示;将得到的语义表示通过双向LSTM层进行编码,并利用图神经网络得到新的含有推理的上下文状态表示,随后使用注意力机制辅助解码器得到词语的推理生成概率;将难度嵌入矩阵使用难度等级控制变量经过高斯核层得到难度生成概率;将得到的推理生成词概率和难度生成词概率整合得到最终的生成概率,进而生成问题序列。本发明专利技术所定义的问题生成难度等级更具有人类客观逻辑性,将多跳推理融入自然语言文本的表示中,生成更加符合所定义难度的多样化问题。

【技术实现步骤摘要】
一种基于推理的难度可控问题生成方法
本专利技术涉及自然语言处理
,尤其涉及一种基于推理的难度可控问题生成方法。
技术介绍
问题生成,即从自然语言文本和对应答案中自动生成问题。近年来,问题生成作为自然语言处理技术中的一部分,已经在学术界和教育界受到了广泛关注。在学术界,问答系统、阅读理解系统、对话系统等是自然语言处理中的几个重要领域,在优化这些任务的算法过程中,一个完备的大规模数据集必不可少。然而,这些任务现有的数据集都是通过人工标注完成,耗费大量的人力物力。通过问题生成的技术辅助,可以减少人力物力的损耗。在教育界,问题生成技术可以应用到试题生成任务中,减少教师出题的时间消耗。一份试卷中,往往需要拥有不同难度等级的试题,才能对应试者的知识掌握情况起到更好的考察作用,从而达到区分不同学生综合水平的目的。然而,现有的问题生成研究中,自然语言文本和生成的问题都是一一对应的形式,缺乏一定的多样性。其中,生成不同难度等级的问题也是问题生成任务中多样性的一种体现。近年来,关于生成多样性问题的研究较少,特别是生成带有不同难度等级的问题。Yifan本文档来自技高网...

【技术保护点】
1.一种基于推理的难度可控问题生成的方法,其特征在于,包括步骤:/n识别文本中的命名实体,根据设定的实体连结关系构建实体网络图;/n分别通过词嵌入方法和难度嵌入矩阵对自然语言文本编码得到其语义表示和难度表示;/n将得到的语义表示通过双向LSTM层进行编码,并利用图神经网络得到新的含有推理的上下文状态表示,随后使用注意力机制辅助解码器得到词语的推理生成概率;/n将难度嵌入矩阵使用难度等级控制变量经过高斯核层得到难度生成概率;/n将得到的推理生成词概率和难度生成词概率整合得到最终的生成概率,进而生成问题序列。/n

【技术特征摘要】
1.一种基于推理的难度可控问题生成的方法,其特征在于,包括步骤:
识别文本中的命名实体,根据设定的实体连结关系构建实体网络图;
分别通过词嵌入方法和难度嵌入矩阵对自然语言文本编码得到其语义表示和难度表示;
将得到的语义表示通过双向LSTM层进行编码,并利用图神经网络得到新的含有推理的上下文状态表示,随后使用注意力机制辅助解码器得到词语的推理生成概率;
将难度嵌入矩阵使用难度等级控制变量经过高斯核层得到难度生成概率;
将得到的推理生成词概率和难度生成词概率整合得到最终的生成概率,进而生成问题序列。


2.根据权利要求1所述的方法,其特征在于,所述识别文本中的命名实体,根据设定的实体连结关系构建实体网络图的步骤中,包括:
使用HOTPOTQA数据集中训练集的桥接样本作为数据集,并将数据集分为训练集、验证集以及测试集;对于每一个单一样本,都含有十个段落上下文及相应的问题和答案,选取含有关键中心词的段落上下文进行拼接及相对应的问题和答案作为单一样本;
使用Srandfordcorenlptoolkit工具识别样本上下文本中的命名实体;
根据设定的两种实体连结关系共同构建实体网络图,其中实体连结关系分别是:一是连结同一句子中的不同实体,二是连结同一文本的同一实体。


3.根据权利要求1所述的方法,其特征在于,所述分别通过词嵌入方法和难度嵌入矩阵对自然语言文本编码得到其语义表示和难度表示的步骤中,包括:
通过预训练好的GloVe词嵌入方法将长文本组成序列以及答案组成序列中的词进行词向量表示,得到上下文语义表示序列以及答案语义表示序列;
将上下文组成序列通过一个难度嵌入矩阵Ed映射得到上下文组成序列的难度表示。


4.根据权利要求1所述的方法,其特征在于,所述将得到的语义表示通过双向LSTM层进行编码,并利用图神经网络得到新的含有推理的上下文状态表示,随后使用注意力机制辅助解码器得到词语的推理生成概率的步骤中,包括:
通过双向LSTM层对得到的上下文语义表示和答案语义表示进行编码,得到上下文状态表示Uc和答案状态表示Ua;
通过一个二进制矩阵M选择上下文状态表示序列的实体范围,并经过平均池层得到实体状态表示,将答案状态表示序列范围经过池化层得到答案综合表示;
利用实体状态表示初始化图神经网络并进行更新,通过迭代的图神经网络获得新的含有推理的上下文状态表示;
使用注意力机制辅助解码器得到词语的推理生成概率。


5.根据权利要求4所述的方法,其特征在于,上下文状态表示和答案状态表示的计算公式为:
























其中,和分别表示第i个词向量的前向和后向的上下文状态表示,则表示第i个词向量的双向上...

【专利技术属性】
技术研发人员:蔡毅黄清宝梁宇
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1