一种阅读理解问题的自动生成方法技术

技术编号:34987405 阅读:27 留言:0更新日期:2022-09-21 14:32
本发明专利技术提出一种阅读理解问题的自动生成方法,属于自然语言处理的问题生成领域,该方法包括:通过对RACE数据集进行数据过滤和应用一种答案标记方法进行答案单词标记,重建了一个QG数据集RACE4QG;构建一个端到端的QG模型,QG模型中编码器的GRU以单词嵌入、答案标记和GAT生成的向量的拼接作为输入;编码器的隐藏状态通过门控自注意力机制,得到最终的通道

【技术实现步骤摘要】
一种阅读理解问题的自动生成方法


[0001]本专利技术涉及一种阅读理解问题的自动生成方法,属于自然语言处理的问题生成


技术介绍

[0002]自动问题生成(Question Generation, QG)对于英语课程的阅读理解教学具有重要意义,它能辅助英语课程的教师根据最新的阅读材料快速自动地生成问题,使课堂教学具有新颖性和主题性,教学中还能根据学生群体的特点来开展个性化教学。QG任务的目标是基于给定的上下文及答案来生成问题,近年来吸引了大量研究者的兴趣。最先进的QG模型通常采用基于深度神经网络的问题生成策略,其中神经网络是基于sequence

to

sequence的骨干进行训练。然而,由于QG任务的艰巨性和教育领域的复杂性,目前缺乏面向教育领域的端到端问题生成模型研究。
[0003]为了解决这一挑战,本专利技术通过对RACE数据集应用一种新的答案标记方法和数据过滤策略,重建了一个专门的问题生成数据集RACE4QG,以训练一个新的端到端问题生成模型。在该模型中,其编码器以单词嵌入、答案标记和图注意力网络(Graph Attention Networks, GAT)生成的向量的拼接作为输入,编码器的隐藏状态通过门控自注意力操作,得到最终的通道

答案表示,并将被输入解码器,解码器使用pointer

generator机制来逐一生成问题的单词。实验结果表明,本专利技术的模型在自动指标和人工评价方面都优于传统的问题生成模型。本专利技术的模型在BLEU

4、ROUGE

L和METEOR等评价指标上分别提高了3.73、1.98和1.59。

技术实现思路

[0004]本专利技术要解决的技术问题是:本专利技术提供一种面向教育领域的端到端的阅读理解问题的自动生成方法,解决现有问题生成方法难以生成阅读理解问题的局限性,能生成精度更好的阅读理解问题。
[0005]本专利技术的技术方案是:一种阅读理解问题的自动生成方法,所述方法的具体步骤如下:Step1:重构用于训练问题生成模型的数据集:通过对RACE数据集进行数据过滤和应用一种答案标记方法进行答案单词标记,重建了一个QG数据集RACE4QG;Step1.1:对候选数据集RACE作适应性分析及重构。在RACE中,每个样本是一个四元组(段落,答案,问题,干扰项),其中干扰项是错误的答案。为了适应问题生成任务,需要对RACE进行调整,将RACE中与问题无关的信息过滤后,获得RACE4QG数据集;Step 1.2:对前述的数据集RACE4QG进行答案标注,以将答案信息注入数据集形成新的RACE4QG数据集,训练出更好的问题生成模型。由于RACE是一个问答数据集,它的问题和答案是从实际的英语考试中获取,答案中的单词分散在上下文中,它不同于一般的问答数据集(如SQuAD),其答案单词在文章中的分布是连续的。针对此问题,传统的答案标记方
法在本任务中功能失调。为了将与答案相关的信息整合到上下文嵌入表示中,本专利技术利用一种新的答案标记方法来标记一个段落中的答案单词;具体来讲,给定一个答案,本专利技术首先将它进行分词,删除停用词,得到一个单词集合X。如果文章中某单词属于集合X,则标记为A,其他单词标记为O。
[0006]Step 2:进行问题生成模型的编码:构建一个端到端的QG模型,QG模型中编码器的门控制循环单元(Gated Recurent Unit, GRU)以单词嵌入、答案标记和GAT生成的向量的拼接作为输入;编码器的隐藏状态通过门控自注意力操作,得到最终的通道

答案表示,并输入解码器;Step 2.1:构建一个端到端的QG模型,编码器选用GRU,用于更高效地训练问题生成模型;Step 2.2:编码器的输入是由三种向量拼接。第一种向量是文章的单词嵌入向量;第二种向量是答案标记向量;第三种向量是GAT生成的向量,是将前两种向量输入到一个GAT以捕获句子内部和句子之间的关系,并以向量形式输出。这三种向量拼接起来,作为编码器的输入,使得编码器的输出包含文章的句子内及句子间的依赖关系信息;Step 2.3:编码器输出的文章向量再经由门控制自注意力机制来得到编码器的最终输出。经过上述步骤后得到了原始的输入文本表示,为了聚合输入文本内部的信息和段落内的依赖关系以改进输入文本的表示,使用了门控制自注意力机制。
[0007]Step 3:进行问题生成模型的解码。
[0008]Step 3.1:解码器是一个单层单向的GRU,它利用注意力机制和指针网络逐一生成问题单词,即出现在问题文本中的单词,最终的单词序列即为模型生成的最终问题。
[0009]Step 3.2:在解码器当前时间步的预测过程中,对于编码器的当前隐藏状态,为了强调文章中更为重要的单词,具体实现机制是采用注意力机制;解码器的当前隐藏状态将与编码器输出(一系列隐藏状态)计算注意力分值,获得文章的动态表示,称为上下文向量C
t
,接着,编码器将上下文向量C
t
、当前的隐藏状态dt和先前生成的单词序列{y1,...,yt

1}拼接起来,共同作为编码器的输入以便预测下一个单词。
[0010]Step 3.3:在解码阶段,为了处理文章中的未登录词和模型生成的问题存在重复单词的缺陷,采用带拷贝机制的指针网络,具体的可采用一个混合的“指针——生成器神经网络”,使得生成下一个单词时,可选择从文章中拷贝或从全局词汇表中生成。
[0011]所述Step1中,利用一种答案标记方法来标记一个段落中的答案单词,具体为:给定一个答案,首先将它进行分词,删除停用词,得到一个单词集合X,如果文章中某单词属于集合X,则标记为A,其他单词标记为O,每个标记的向量维度为32维。
[0012]所述Step2.1中,编码器是两层双向GRU,隐藏层的维度为300维,输出维度为600维。
[0013]所述Step2.2中,编码器的输入是由单词嵌入、答案标记和GAT生成的向量三种向量拼接得到,重点是使用GAT来处理输入单词的嵌入向量,其注意力头的个数为8个,输出维度为600维。
[0014]所述Step2.3中,编码器的输出经过门控制自注意力机制的处理后得到编码器的最终输出(即文章的最终嵌入式表示),维度为600维。
[0015]所述Step3.2中,利用注意力机制来为解码器当前隐藏状态d
t
对文章()计算注意力分布(,得到文章的动态的上下文向量C
t
,它可突显重要的单词,突显出的重要的单词对有助于解码器生成更好的单词。,.所述Step3.3中,利用指针网络来处理文章中的未登录词及解码器的预测文本存在重复单词的问题,公式为,,,这里,p
gen 是一个可训练的参数,它用来决定预被预测的问题单词是从输入序列中复制还是从词汇表中生成。p
vocab 表示从词汇表中生成的概率,pcopy 表示从文章中复本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种阅读理解问题的自动生成方法,其特征在于:所述方法的具体步骤如下:Step1:重构用于训练问题生成模型的数据集:通过对RACE数据集进行数据过滤和应用一种答案标记方法进行答案单词标记,重建了一个QG数据集RACE4QG;Step2:进行问题生成模型的编码:构建一个端到端的QG模型,QG模型中编码器的GRU以单词嵌入、答案标记和GAT生成的向量的拼接作为输入;编码器的隐藏状态通过门控自注意力操作,得到最终的通道

答案表示,并输入解码器;Step3:进行问题生成模型的解码;所述Step1的具体步骤如下:Step1.1:对候选数据集RACE作适应性分析及重构;将RACE中与问题无关的信息过滤后,获得RACE4QG数据集;Step1.2:对数据集RACE4QG进行答案标注,以将答案信息注入数据集形成新的RACE4QG数据集,训练出更好的问题生成模型;所述Step2的具体步骤如下:Step2.1:构建一个端到端的QG模型,编码器使用GRU,用于更高效地训练问题生成模型;Step2.2:编码器的输入为单词嵌入、答案标记和GAT生成的向量三种向量的拼接,使得编码器的输出包含文章的句子内及句子间的依赖关系信息;Step2.3:编码器输出的文章向量经门控自注意力机制的作用,使该向量包含更丰富的信息,以利于解码阶段能生成更好的问题。2.根据权利要求1所述的阅读理解问题的自动生成方法,其特征在于:所述Step3的具体步骤如下:Step3.1:解码器是一个单层单向的GRU,它利用注意机制和指针网络逐一生成问题...

【专利技术属性】
技术研发人员:甘健侯徐坚吴迪周菊香王俊张利明姚贤明
申请(专利权)人:云南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1