一种自动生成英语阅读理解问答的方法技术

技术编号:38488238 阅读:29 留言:0更新日期:2023-08-15 17:03
本发明专利技术公布了一种自动生成英语阅读理解问答的方法,本发明专利技术的方法是基于transformer模型实现,包括将阅读理解文章中的文本进行数据预处理生成训练集,将训练集输入到模型进行编码为句子向量和难度向量,利用句子向量和难度向量在解码器进行解码生成难度等级递增的问题和答案。主要实现的核心技术是利用难度向量和句子向量在解码器中解码生成难度递增的问题和答案,实现了针对英语阅读理解里面的文章进行解析,并自动生成难度递增问题和答案的用途。依次输出难度等级递增的问题给学生进行训练,有效解决了学生无法评估自身在英语阅读理解上的学习能力以及提高了学生的阅读能力和学习能力。和学习能力。和学习能力。

【技术实现步骤摘要】
一种自动生成英语阅读理解问答的方法


[0002][0003]本专利技术涉及自然语言处理领域,尤其涉及一种自动生成英语阅读理解问答的方法。

技术介绍

[0004][0005]目前生成问答的方法有很多,例如利用基于规则的问答系统,该方法利用预定义的规则来匹配问题和答案;基于模板的问答系统,这种方法利用预定义的模板来匹配问题和答案;基于检索的问答系统,利用检索引擎获取相关文本,然后通过自然语言处理技术匹配问题和答案;基于生成的问答系统,通过利用深度学习技术来生成问题和答案。针对英语阅读理解的问答生成方法,可实现生成的问答难度呈递增式分布。

技术实现思路

[0006][0007]本专利技术提出了一种自动生成英语阅读理解问答的方法,利用句子向量和难度向量生成难度递增的问题和答案,使得生成的问答有相关性的关联。
[0008]本专利技术的技术方案是:一种自动生成英语阅读理解问答的方法,所述方法的具体步骤如下:
[0009]第一步:使用多头注意力机制,将输入的句子向量和难度向量分别作为查询向量和键向量进行计算,得到每个查询向量和键向量之间的注意力权重向量,然后,将得到的注意力权重向量进行加权平均计算出最终的注意力权重向量。最后,将最终的注意力权重向量与对应的值向量进行加权求和得到加权的句子向量,同时初始化难度向量的权重,将加权后的句子向量和带权的难度向量输入到各个解码器层中;
[0010]第二步:在每个解码器层中,使用自注意力机制,对加权的句子向量和带权的难度向量进行加权平均得到加权的上下文向量;
[0011]第三步:在每个解码器层中,将加权的上下文向量与上一个解码器层的加权输出进行拼接,输入到前馈神经网络中生成一个上下文感知的加权向量,将带权的难度向量与上一个解码器层的加权输出进行拼接,输入到前馈神经网络中生成一个难度感知的加权向量,将上下文感知的加权向量和难度感知的加权向量进行加权平均得到一个加权的解码器输出,将难度向量的权重和加权的解码器输出相乘得到当前解码器层的加权输出,得到的解码器层的加权输出作为下一个解码器层的输入;
[0012]第四步:将多个解码器层的加权输出拼接起来,通过激活函数转换为概率分布,利用难度向量的权重选取概率较高的单词,拼接输出的单词作为生成难度相符的问题和答案;
[0013]第五步:增加难度向量的权重同时减少句子向量的权重,再将权重变化后的带权难度向量和加权句子向量输入到解码器中再次解码生成比上一级难度更高的问题与答案。
通过逐步调整难度向量和句子向量的权重,使难度向量对加权句子向量的影响逐渐增加,利用解码器解码生成难度递增的问题和答案。
[0014]本专利技术的有益效果是:
[0015]本专利技术给出的利用难度向量和句子向量自动生成难度递增的问题和答案的技术方法,关联了生成问答系列的相关性,对于在英语阅读理解实际应用中,学生可以准确了解自身的学习水平以及降低了教师对于学生在英语阅读理解上个性化教学的难度。
附图说明
[0016][0017]图1是一种自动生成英语阅读理解问答的方法的流程图;
[0018]图2是通过解码器解码生成难度递增的问题和答案的流程图。
具体实施方式
[0019][0020]下面结合附图对本专利技术的作进一步说明。
[0021]参照图1,该方法包括以下步骤:
[0022](1)数据预处理。对英语阅读理解文章中的文本信息进行数据预处理,将输入的文本信息划分为句子,对每个句子进行分词、去除停用词和词形还原等处理,分析每个句子的语法结构以及每个句子之间的前后逻辑关系;给每个句子中出现的主题词打上<>标签,给重点词打上()标签;
[0023](2)生成训练集。进行数据预处理后生成带标签的句子样本,通过句子中的词汇、句法和语义分析来计算每个句子的语法复杂度、语义复杂度、逻辑复杂度等指标,将计算出来的指标综合起来,得到句子的综合难度,将句子的综合难度划分等级,为每个等级指定一个难度系数,通过综合难度评估出每个句子的难度系数;
[0024](3)编码阶段。将带标签的句子样本转化为一个个的词汇索引序列, 并对每个词汇进行嵌入得到句子嵌入矩阵,得到的句子嵌入矩阵的每一行代表一个词汇的嵌入向量,同时将每个句子难度系数进行热(one

hot)编码并进行嵌入得到难度嵌入矩阵,得到的难度嵌入矩阵的每一行代表难度级别的嵌入向量,然后将每个句子嵌入向量和难度嵌入向量进行位置编码,将经过位置编码后的句子嵌入向量和难度嵌入向量输入到编码器层进行计算分别得到句子向量和难度向量。难度向量中的每个维度对应一个难度级别,作为模型的一个额外的输入特征。将句子向量与难度向量一起输入到解码器;
[0025](4)解码阶段。利用难度向量和句子向量结合的方式控制问题难度的递增输出,并且在解码器中逐步增加难度向量的权重,通过解码生成难度递增的问题和答案;
[0026]①
使用多头注意力机制,将输入的句子向量和难度向量分别作为查询向量和键向量进行计算,得到每个查询向量和键向量之间的注意力权重向量,然后,将得到的注意力权重向量进行加权平均计算出最终的注意力权重向量。最后,将最终的注意力权重向量与对应的值向量进行加权求和得到加权的句子向量,同时初始化难度向量的权重,将加权后的句子向量和带权的难度向量输入到各个解码器层中;
[0027]计算每个查询向量和键向量之间的注意力权重向量,计算公式为:
[0028][0029]其中,为第i个句子向量,为第j个难度向量。
[0030]计算最终的注意力权重向量,计算公式为:
[0031][0032]其中n为句子数量,为第j个值向量。
[0033]计算加权的句子向量,计算公式为:
[0034][0035]其中n为句子数量。
[0036]②
在每个解码器层中,使用自注意力机制,对加权的句子向量和带权的难度向量进行加权平均得到加权的上下文向量;
[0037]计算加权的上下文向量,计算公式为:
[0038][0039]其中为第i个解码器层的加权的上下文向量,为第j个解码器层的加权的句子向量,为第i个解码器层的难度向量,为加权的句子向量和带权的难度向量的加权系数。
[0040]计算加权的句子向量和带权的难度向量的加权系数
[0041][0042][0043]其中是加权的句子向量和带权的难度向量的注意力得分。
[0044]③
在每个解码器层中,将加权的上下文向量与上一个解码器层的加权输出进行拼接,输入到前馈神经网络中生成一个上下文感知的加权向量,将带权的难度向量与上一个解码器的加权输出进行拼接,输入到前馈神经网络中生成一个难度感知的加权向量,将上下文感知的加权向量和难度感知的加权向量进行加权平均得到一个加权的解码器输出,将难度向量的权重和加权的解码器输出相乘得到当前解码器层的加权输出,得到的解码器层的加权输出作为下一个解码器层的输入;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动生成英语阅读理解问答的方法,其特征在于,先从英语阅读理解语料中抽取难度向量和句子向量,再通过transformer模型中的解码器解码生成难度递增的问题和答案。2.根据权利要求1中所述方法的特征,其具体步骤如下:第一步:使用多头注意力机制,将输入的句子向量和难度向量分别作为查询向量和键向量进行计算,得到每个查询向量和键向量之间的注意力权重向量,然后,将得到的注意力权重向量进行加权平均计算出最终的注意力权重向量。最后,将最终的注意力权重向量与对应的值向量进行加权求和得到加权的句子向量,同时初始化难度向量的权重,将加权后的句子向量和带权的难度向量输入到各个解码器层中;第二步:在每个解码器层中,使用自注意力机制,对加权的句子向量和带权的难度向量进行加权平均得到加权的上下文向量;第三步:在每个解码器层中,将加权的上下文向量与上一个解码器层的加权输出进行拼接,输入...

【专利技术属性】
技术研发人员:戴翰波刘思琪
申请(专利权)人:武汉慧人信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1