一种面向机器阅读理解的问题生成方法技术

技术编号:34893558 阅读:150 留言:0更新日期:2022-09-10 13:52
本发明专利技术涉及一种面向机器阅读理解的问题生成方法,方法包括:使用已经构建的阅读理解数据集,包括问题、段落和答案;对数据集中与答案相关的三元组知识进行提取;使用seq2seq模型,以段落、答案和三元组知识作为模型的输入数据,得到编码向量和问题生成的预测结果;使用问题生成的预测结果计算得出问题生成的损失函数;使用辅助分类模型根据编码向量预测目标问题的疑问词类型,得到疑问词类型与辅助分类模型的预测结果;使用疑问词类型与辅助分类模型的预测结果计算得出辅助分类模型的损失函数;将两个损失函数组合,得到总损失函数,使用总损失函数对seq2seq模型和辅助分类模型进行迭代训练,得到训练完成的seq2seq模型;使用训练完成的seq2seq模型进行问题生成。训练完成的seq2seq模型进行问题生成。训练完成的seq2seq模型进行问题生成。

【技术实现步骤摘要】
一种面向机器阅读理解的问题生成方法


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种面向机器阅读理解的问题生成方法。

技术介绍

[0002]近年来,随着人工智能技术的快速发展,自然语言生成的相关研究受到越来越多的关注,其中,问题生成是自然语言生成的一个重要研究方向,目前的问题生成研究主要是有答案的问题生成,根据给定的上下文信息和指定的答案信息,让机器能够理解给定的上下文信息生成针对该指定答案的问题。问题生成技术在学术界和工业界具有广泛的应用,一方面,问题生成可以作为一种数据增强技术为问答系统和阅读理解任务产生训练数据.研究表明,利用自动生成的问题来补充数据,或者同时将答案抽取与问题生成两个任务进行训练可以显著提升问答系统的性能。另一方面,问题生成可以在教育领域模拟用户提问、在对话领域中引导机器主动提问等,在对话系统中嵌入问题生成模型,可以加强系统与人的交互,帮助系统更准确地判断人的意图,从而使人机对话更加流畅。
[0003]早期的问题生成研究主要是基于规则和模板的方式,该方法是在语法树上定义一些启发式的规则来将某个句子转换成问题句式,该方法的好处是可以保证生成问题的相关性和流利度,但是这类方法严格依赖于人工设定的转换和生成规则,同时生成问题的多样性在很大程度上受到限制,可移植性差。随着一些大规模的高质量的机器阅读理解数据集的出现,如SQuAD、MARCO,基于神经网络的问题生成取得了很大的进展。在之后的研究当中,基于神经网络的问题生成成为主流的研究方法,并且出现了大量的高质量的研究。目前,面向阅读理解的数据集构建主要采用人工的方式,该方式需要耗费大量的人力和物力资源,人工成本较高。
[0004]问题生成任务需要理解上下文并根据答案生成合适的问题,其中,问句的疑问词准确性直接决定了问句的准确性,因此,问句中疑问词的准确率至关重要。对目前问题生成模型生成的问句的准确率进行统计分析发现,生成的问句中有超过半数的问题词与问题类型不匹配,这严重影响了问题生成的效果。同时,生成的问题中还存在和原文以及答案相关性不大的问题。

技术实现思路

[0005]本专利技术的目的是提供一种面向机器阅读理解的问题生成方法,旨在解决阅读理解数据集匮乏的问题,通过有效利用深度学习的方法和技术,降低人工成本。针对生成的问句中有超过半数的问题词与问题类型不匹配的问题,本专利技术提出对输入的段落和答案进行分类,将问题类型按照疑问词的类别进行分类。针对生成的问题中存在和原文以及答案相关性不大的问题,本专利技术根据给定的答案对数据集中的三元组知识进行提取,并将该三元组知识和原始输入融合后一起输入到编码器当中,获得具有答案意识的上下文表示,通过解码器,生成与答案和原文相关的问题。
[0006]本专利技术为解决上述技术问题采用的技术方案为,提供了一种面向机器阅读理解的问题生成方法,方法包括:
[0007]使用已经构建的阅读理解数据集,包括问题、段落和答案;
[0008]对数据集中与所述答案相关的三元组知识进行提取;
[0009]使用seq2seq模型,以所述段落、答案和三元组知识作为模型的输入数据,对所述输入数据进行编码与解码,得到编码向量和问题生成的预测结果;
[0010]以所述问题作为标签,使用所述问题生成的预测结果计算得出问题生成的损失函数;
[0011]使用辅助分类模型根据所述编码向量预测目标问题的疑问词类型,得到疑问词类型与辅助分类模型的预测结果;
[0012]以所述问题作为标签,使用所述疑问词类型与所述辅助分类模型的预测结果计算得出辅助分类模型的损失函数;
[0013]将所述问题生成的损失函数与辅助分类模型的损失函数组合,得到总损失函数,使用所述总损失函数对所述seq2seq模型和辅助分类模型进行迭代训练,得到训练完成的seq2seq模型;
[0014]使用所述训练完成的seq2seq模型进行问题生成。
[0015]在一种可能的实施方式中,所述seq2seq模型,以基于自注意力机制的双向LSTM作为编码器,以基于注意力机制的LSTM作为解码器。
[0016]在一种可能的实施方式中,所述辅助分类模型为BERT分类模型,使用交叉熵损失函数计算所述问题生成的损失函数和辅助分类模型的损失函数。
[0017]本专利技术采用seq2seq架构,进行阅读理解数据集的自动构建,根据给定的文本和答案生成针对该答案的问题,同时针对目前问题生成研究中生成的问题存在疑问词不准确或缺失的问题,设计疑问词分类的辅助任务对问句类型进行分类,提高生成的问句中疑问词的准确率,另外,通过对段落和答案中存在的三元组知识进行提取,将其一起输入到模型当中,通过为模型提供更多的信息来提高生成问句的质量。
附图说明
[0018]图1为本专利技术实施例公开的一种面向机器阅读理解的问题生成方法的流程图。
具体实施方式
[0019]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
[0020]基于seq2seq架构的问题生成的任务定义是:根据给定的段落D和答案A,模型生成一个问题该问题可以根据给定的段落和答案进行回答,如公式(1)所示:
[0021][0022]图1为本专利技术实施例公开的一种面向机器阅读理解的问题生成方法的流程图。
[0023]在步骤S101,获取训练模型所需要的训练集数据,包括问题、段落和答案。
[0024]在步骤S102,对数据集中与答案相关的三元组知识<A
t
,r,e>进行提取,获得与答案A
t
相关的关键词r和e,其中,A
t
为实体一,r为实体关系,e为实体二,通过关键词r和e辅助
模型生成与答案相关的问题。通过对原始段落中与答案相关的三元组知识进行提取,可以提高生成问题与答案的相关性。
[0025]在步骤S103,使用seq2seq模型,编码器使用双向LSTM,对输入的段落、答案和三元组知识<A
t
,r,e>进行编码,如公式(2)

(3)所示:
[0026]h
t
=LSTM(h
t
‑1,[D
t
,A
t
,<A
t
,r,e>])
ꢀꢀꢀ
(2)
[0027][0028]其中,h
t
‑1为t

1时间步的隐状态,和分别代表从左向右和从右向左的编码,H为双向LSTM编码后的编码向量。
[0029]使用自注意力机制对编码后的信息进行处理,自注意力机制可以让模型为不同的信息动态地分配权重,如公式(4)

(6)所示:
[0030]f(H,h
t
)=H
T
W
a
h
t
ꢀꢀꢀ
(4)...

【技术保护点】

【技术特征摘要】
1.一种面向机器阅读理解的问题生成方法,其特征在于,所述方法包括:使用已经构建的阅读理解数据集,包括问题、段落和答案;对数据集中与所述答案相关的三元组知识进行提取;使用seq2seq模型,以所述段落、答案和三元组知识作为模型的输入数据,对所述输入数据进行编码与解码,得到编码向量和问题生成的预测结果;以所述问题作为标签,使用所述问题生成的预测结果计算得出问题生成的损失函数;使用辅助分类模型根据所述编码向量预测目标问题的疑问词类型,得到疑问词类型与辅助分类模型的预测结果;以所述问题作为标签,使用所述疑问词类型与所述辅助分类模型的预测结果计算得出辅助分...

【专利技术属性】
技术研发人员:孙媛刘思思
申请(专利权)人:中央民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1