一种阅读理解问题的自动生成方法技术

技术编号：34987405 阅读：27 留言：0更新日期：2022-09-21 14:32

本发明专利技术提出一种阅读理解问题的自动生成方法，属于自然语言处理的问题生成领域，该方法包括：通过对RACE数据集进行数据过滤和应用一种答案标记方法进行答案单词标记，重建了一个QG数据集RACE4QG；构建一个端到端的QG模型，QG模型中编码器的GRU以单词嵌入、答案标记和GAT生成的向量的拼接作为输入；编码器的隐藏状态通过门控自注意力机制，得到最终的通道

全部详细技术资料下载

【技术实现步骤摘要】
一种阅读理解问题的自动生成方法

[0001]本专利技术涉及一种阅读理解问题的自动生成方法，属于自然语言处理的问题生成

技术介绍

[0002]自动问题生成(Question Generation, QG)对于英语课程的阅读理解教学具有重要意义，它能辅助英语课程的教师根据最新的阅读材料快速自动地生成问题，使课堂教学具有新颖性和主题性，教学中还能根据学生群体的特点来开展个性化教学。QG任务的目标是基于给定的上下文及答案来生成问题，近年来吸引了大量研究者的兴趣。最先进的QG模型通常采用基于深度神经网络的问题生成策略，其中神经网络是基于sequence
‑
to
‑
sequence的骨干进行训练。然而，由于QG任务的艰巨性和教育领域的复杂性，目前缺乏面向教育领域的端到端问题生成模型研究。
[0003]为了解决这一挑战，本专利技术通过对RACE数据集应用一种新的答案标记方法和数据过滤策略，重建了一个专门的问题生成数据集RACE4QG，以训练一个新的端到端问题生成模型。在该模型中，其编码器以单词嵌入、答案标记和图注意力网络(Graph Attention Networks, GAT)生成的向量的拼接作为输入，编码器的隐藏状态通过门控自注意力操作，得到最终的通道
‑
答案表示，并将被输入解码器，解码器使用pointer
‑
generator机制来逐一生成问题的单词。实验结果表明，本专利技术的模型在自动指标和人工评价方面都优于传统的问题生成模型。本专...

【技术保护点】

【技术特征摘要】
1.一种阅读理解问题的自动生成方法，其特征在于：所述方法的具体步骤如下：Step1：重构用于训练问题生成模型的数据集：通过对RACE数据集进行数据过滤和应用一种答案标记方法进行答案单词标记，重建了一个QG数据集RACE4QG；Step2：进行问题生成模型的编码：构建一个端到端的QG模型，QG模型中编码器的GRU以单词嵌入、答案标记和GAT生成的向量的拼接作为输入；编码器的隐藏状态通过门控自注意力操作，得到最终的通道
‑
答案表示，并输入解码器；Step3：进行问题生成模型的解码；所述Step1的具体步骤如下：Step1.1：对候选数据集RACE作适应性分析及重构；将RACE中与问题无关的信息过滤后，获得RACE4QG数据集；Step1.2：对数据集RACE4QG进行答案标注，以将答案信息注入数据集形成新的RACE4QG数据集，训练出更好的问题生成模型；所述Step2的具体步骤如下：Step2.1：构建一个端到端的QG模型，编码器使用GRU，用于更高效地训练问题生成模型；Step2.2：编码器的输入为单词嵌入、答案标记和GAT生成的向量三种向量的拼接，使得编码器的输出包含文章的句子内及句子间的依赖关系信息；Step2.3：编码器输出的文章向量经门控自注意力机制的作用，使该向量包含更丰富的信息，以利于解码阶段能生成更好的问题。2.根据权利要求1所述的阅读理解问题的自动生成方法，其特征在于：所述Step3的具体步骤如下：Step3.1：解码器是一个单层单向的GRU，它利用注意机制和指针网络逐一生成问题...

【专利技术属性】
技术研发人员：甘健侯，徐坚，吴迪，周菊香，王俊，张利明，姚贤明，
申请(专利权)人：云南师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人