一种基于关键词的长文本问答对生成系统技术方案

技术编号:26304104 阅读:10 留言:0更新日期:2020-11-10 19:59
本发明专利技术公开了基于关键词的长文本问答对生成系统,实现根据文本及关键词生成与关键词相关且有意义的问答对。其技术方案为:系统包括生成模块和评估模块,生成模块针对段落及关键词生成与关键词相关的问答对,评估模块通过自动评估方式评价问答对质量。生成模块基于三阶段生成模型生成问答对:依次串联的段落检索单元、答案范围提取单元以及问题生成单元。其中段落检索单元用于基于信息检索模型,根据关键词从文本中检索出候选问答对在长文本中所处的候选段落;答案范围提取单元用于从候选段落中提取出可能存在的答案范围;问题生成单元根据候选段落和答案范围中的其中一个答案,生成问题并和答案组成与关键词相关的问答对。

【技术实现步骤摘要】
一种基于关键词的长文本问答对生成系统
本专利技术涉及一种长文本问答对的处理技术,具体涉及一种基于关键词的长文本问答对生成系统。
技术介绍
基于文本的问答对生成是一项根据给定文档生成在句法和语义上有意义且相关的问答对的任务。给定一个文档,有可能产生许多问题和答案。但是并非所有生成的问答对都与用户的观点相关。在生成问答对时,如果有用户指定的关键词(或主题)作约束,就能生成更有针对性和实际指导意义的问答对。例如,图1显示了从文档中生成的一组与不同方面相关的问答对。当用户指定了“元素属性”这一关键词时,问题“氧气的原子数是多少?”比起“氧气是什么时候被发现的?”更适合被提问。当用户对“化学反应”这一主题更感兴趣时,问答对4和5更能突出这个方面。然而,现有的问答对生成的工作大多都是用如下步骤生成的:1)提取有意义的短语作为文档中的答案;2)生成有关文档和特定答案范围的问题。现有的方法以及现存的数据集都没有考虑过基于关键词针对文本生成问答对,因此,很容易生成一些无意义的、用户不关心的问答对。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。本专利技术的目的在于解决上述问题,提供了一种基于关键词的长文本问答对生成系统,实现了根据文本及关键词生成与关键词相关且有意义的问答对。本专利技术的技术方案为:本专利技术揭示了一种基于关键词的长文本问答对生成系统,系统包括生成模块和评估模块,生成模块输出数据至评估模块,生成模块用于针对段落文本及关键词生成与关键词相关的问答对,评估模块用于通过自动评估的方式评价问答对的质量,其中生成模块基于三阶段生成模型生成与关键词相关的问答对。根据本专利技术的基于关键词的长文本问答对生成系统的一实施例,生成模块基于三阶段生成模型的配置为:生成模块包括依次串联的段落检索单元、答案范围提取单元以及问题生成单元,其中这三个单元单独训练。根据本专利技术的基于关键词的长文本问答对生成系统的一实施例,段落检索单元用于基于信息检索模型,根据关键词从文本中检索出候选问答对在长文本中所处的候选段落,输出到答案范围提取单元,其中信息检索模型包括TF-IDF,BM25及BERT三种检索算法。根据本专利技术的基于关键词的长文本问答对生成系统的一实施例,答案范围提取单元用于从候选段落中提取出可能存在的答案范围,输出到问题生成单元,答案范围提取单元的提取算法包括:命名实体识别、指针网络和组块分析。根据本专利技术的基于关键词的长文本问答对生成系统的一实施例,问题生成单元接收段落检索单元检索出的候选段落和答案范围提取单元提取出的答案范围,根据候选段落和答案范围中的其中一个答案,生成问题并和答案组成与关键词相关的问答对,问题生成单元的生成算法包括:序列-序列方法及UNILM模型。根据本专利技术的基于关键词的长文本问答对生成系统的一实施例,问题生成单元还通过添加对偶模型生成问题。根据本专利技术的基于关键词的长文本问答对生成系统的一实施例,生成模块还基于三阶段过滤生成模型实现,配置为:生成模块在依次串联的段落检索单元、答案范围提取单元、问题生成单元之后还串联一个问答对过滤器,问答对过滤器用于进一步挑选出和关键词相关的问答对。根据本专利技术的基于关键词的长文本问答对生成系统的一实施例,问答对过滤器分别通过相关性分类器和相似度计算实现。根据本专利技术的基于关键词的长文本问答对生成系统的一实施例,生成模块进一步配置为按照问答对和关键词的相关度进行排序,将关键词和有序的问答对列表输入到评价模块,评价模块针对整个问答对,使用一个端到端的指标来对每对生成的问答对进行评分。根据本专利技术的基于关键词的长文本问答对生成系统的一实施例,评价模块进一步配置为计算真实值的问答对和生成的问答对的分数矩阵,其中评价模块的评估指标包括BLEU、METEOR和ROUGE-L。本专利技术对比现有技术有如下的有益效果:本专利技术系统中的段落检索单元通过寻找和关键词相关的段落,极大程度上缩小了生成问答对的文本范围,提升了问答对生成的准确度。此外,本专利技术系统中的问题生成单元考虑了关键词对问题生成的作用,限制模型生成和关键词相关的问题。因此,在三阶段生成模型的三个单元中,对关键词进行了显示的建模,让三个单元的模型都能充分感知到关键词的约束。再者,本专利技术系统中的问答对过滤器通过训练分类器以及计算相似度对生成的问答对进行筛选,只保留和关键词最相关的问答对,提升生成问答对的准确度。最后,本专利技术的评估模块与以往单独评价答案或问题的评价方法不同,本专利技术的评估模块是通过计算每一个真值和生成值之间答案和问题的分数的乘积,实现了对生成问答对的整体评估,这种评估方法倾向于挑选问题和答案的质量都很高的问答对。另外,该评估方法通过计算recision@K以及MRR,更关注于已生成的问答对和真值的相关性。附图说明在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本专利技术的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。图1示出了根据文档的不同关键词生成问答对的示例的示意图。图2示出了本专利技术的基于关键词的长文本问答对生成系统的一实施例的原理图。图3示出了本专利技术的生成模块中的三阶段生成模型的实现原理图。图4示出了本专利技术的生成模块中的三阶段及过滤生成模型的实现原理图。图5A示出了BERT的网络训练结构的示意图。图5B示出了BERT的模型预测结构的示意图。具体实施方式以下结合附图和具体实施例对本专利技术作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本专利技术的保护范围进行任何限制。图2示出了本专利技术的基于关键词的长文本问答对生成系统的一实施例的原理。请参见图2,本实施例的长文本问答对生成系统包括生成模块和评估模块。生成模块的数据输出至评估模块。生成模块用于针对段落及关键词进行问答对的生成。评估模块用于通过自动评估的方式评价问答对的质量。生成模块的输入是文本及关键词集合,输出是与每一个关键词相关的问答对。生成模块主要有两种实现方式,分别为:三阶段生成模型以及三阶段过滤生成模型。三阶段生成模型包括如下三个单元:段落检索单元、答案范围提取单元以及问题生成单元。这三个单元单独训练,并在生成模块中进行串联,三阶段生成模型的实现原理如图3所示。三阶段及过滤生成模型是在三阶段生成模型中串联的末端,增加一个问答对过滤器,挑选出和关键词相关的问答对,三阶段及过滤生成模型的实现原理如图4所示。如图3所示,在三阶段生成模型中,生成模块的输入是文本及关键词,经过段落检索单元、答案范围提取单元以及问题生成单元的处理,生成问答对输出。本文档来自技高网...

【技术保护点】
1.一种基于关键词的长文本问答对生成系统,其特征在于,系统包括生成模块和评估模块,生成模块输出数据至评估模块,生成模块用于针对段落文本及关键词生成与关键词相关的问答对,评估模块用于通过自动评估的方式评价问答对的质量,其中生成模块基于三阶段生成模型生成与关键词相关的问答对。/n

【技术特征摘要】
1.一种基于关键词的长文本问答对生成系统,其特征在于,系统包括生成模块和评估模块,生成模块输出数据至评估模块,生成模块用于针对段落文本及关键词生成与关键词相关的问答对,评估模块用于通过自动评估的方式评价问答对的质量,其中生成模块基于三阶段生成模型生成与关键词相关的问答对。


2.根据权利要求1所述的基于关键词的长文本问答对生成系统,其特征在于,生成模块基于三阶段生成模型的配置为:生成模块包括依次串联的段落检索单元、答案范围提取单元以及问题生成单元,其中这三个单元单独训练。


3.根据权利要求2所述的基于关键词的长文本问答对生成系统,其特征在于,段落检索单元用于基于信息检索模型,根据关键词从文本中检索出候选问答对在长文本中所处的候选段落,输出到答案范围提取单元,其中信息检索模型包括TF-IDF,BM25及BERT三种检索算法。


4.根据权利要求3所述的基于关键词的长文本问答对生成系统,其特征在于,答案范围提取单元用于从候选段落中提取出可能存在的答案范围,输出到问题生成单元,答案范围提取单元的提取算法包括:命名实体识别、指针网络和组块分析。


5.根据权利要求4所述的基于关键词的长文本问答对生成系统,其特征在于,问题生成单元接收段落检索单元检索出的候选段落和答案范围提取单元提取出的答案范围,根据...

【专利技术属性】
技术研发人员:朱其立沈李斌张盛瑶郭子路李恺健奚宁李波
申请(专利权)人:上海乐言信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1