提高相关性的神经问题生成方法技术

技术编号：22166873 阅读：21 留言：0更新日期：2019-09-21 10:33

本发明专利技术公开了一种提高相关性的神经问题生成方法。本发明专利技术一种提高相关性的神经问题生成方法，包括：基于seq2seq的QG模型，由encoder层和decoder组成，并加入了attention机制和copy机制；基于字符重叠的部分copy机制。本发明专利技术的有益效果：通过基于字符重叠度的部分copy机制，我们可以使得生成问题中在单词级别和输入文档具有更高的重叠度和相关性。通过基于QA模型的重排序机制，我们可以为生成的那些质量较好的候选问题赋予更高的分数，而过滤掉那些较为通用的、难以回答的问题。

Neural Problem Generation Method for Improving Relevance

全部详细技术资料下载

【技术实现步骤摘要】
提高相关性的神经问题生成方法
本专利技术涉及问题生成领域，具体涉及一种提高相关性的神经问题生成方法。
技术介绍
问题生成(QuestionGeneration,QG)是自然语言处理中一个非常重要的问题，是考验计算机是否真正理解文本的一项重要途径，并广泛应用于各个领域。QG可以为问答系统(QuestionAnswering,QA)创建大量的QA对，为相关任务提供数据集。同时，QG本身也可以为医疗诊断系统、家庭教育系统等提供服务。QG任务的输入通常包含文档(或句子)和答案，输出是在给定文档和目标答案的情况下，生成最有可能的问题。一般来说，QG模型是一个序列到序列的结构(Sequencetosequence,seq2seq)，由一个编码器(encoder)和解码器(decoder)组成，encoder将输入的文档和目标答案编码成向量(也称为源端)，然后decoder根据这个向量逐字生成一个完整的问题(也称为目标端)。为了增强模型的性能，通常还会有注意力(attention)机制和拷贝(copy)机制。相关技术：(1)LeveragingContextInformationforNaturalQuestionGeneration。文章构造一个seq2seq的模型，将文档和目标答案作为输入，旨在生成一个合理的问题。这个模型带有attention机制和copy机制。传统技术存在以下技术问题：QG模型是个seq2seq的结构，并且通常会加入copy机制来保证生成问题的可靠性。实际上，由于生成模型的特性，QG模型往往会趋向于生成一些较为通用的问题，比如“他叫什么名字？”、...

【技术保护点】
1.一种提高相关性的神经问题生成方法，其特征在于，包括：基于seq2seq的QG模型，由encoder层和decoder组成，并加入了attention机制和copy机制。基于字符重叠的部分copy机制：考虑使用最长公共子序列(Longest common subsequence,LCS)来定义单词w1和w2的重叠度C：

【技术特征摘要】
1.一种提高相关性的神经问题生成方法，其特征在于，包括：基于seq2seq的QG模型，由encoder层和decoder组成，并加入了attention机制和copy机制。基于字符重叠的部分copy机制：考虑使用最长公共子序列(Longestcommonsubsequence,LCS)来定义单词w1和w2的重叠度C：这里使用一个阈值来对C进行过滤：具体在decoder生成一个单词时，考虑输入文档中与当前生成词attention分数最大的那个单词，并考虑该词和词表中每个单词的重叠度，然后利用这个重叠度来重新调整decoder最后输出的概率分布：Padj＝P*(1+λ1*C)。2.一种提高相关性的神经问题生成方法，其特征在于，包括：基于seq2seq的QG模型，由encoder层和decoder组成，并加入了attention机制和copy机制；基于QA模型的重排序技术：因为集束搜索(beamsearch)的存在，QG系统往往会生成多个候选问题，一般选择分数最高的问题作为模型最后的输出问题；但事实...

【专利技术属性】
技术研发人员：熊德意，邱嘉作，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人