一种基于关键词的长文本问答对生成系统技术方案

技术编号:26304104 阅读:29 留言:0更新日期:2020-11-10 19:59
本发明专利技术公开了基于关键词的长文本问答对生成系统,实现根据文本及关键词生成与关键词相关且有意义的问答对。其技术方案为:系统包括生成模块和评估模块,生成模块针对段落及关键词生成与关键词相关的问答对,评估模块通过自动评估方式评价问答对质量。生成模块基于三阶段生成模型生成问答对:依次串联的段落检索单元、答案范围提取单元以及问题生成单元。其中段落检索单元用于基于信息检索模型,根据关键词从文本中检索出候选问答对在长文本中所处的候选段落;答案范围提取单元用于从候选段落中提取出可能存在的答案范围;问题生成单元根据候选段落和答案范围中的其中一个答案,生成问题并和答案组成与关键词相关的问答对。

【技术实现步骤摘要】
一种基于关键词的长文本问答对生成系统
本专利技术涉及一种长文本问答对的处理技术,具体涉及一种基于关键词的长文本问答对生成系统。
技术介绍
基于文本的问答对生成是一项根据给定文档生成在句法和语义上有意义且相关的问答对的任务。给定一个文档,有可能产生许多问题和答案。但是并非所有生成的问答对都与用户的观点相关。在生成问答对时,如果有用户指定的关键词(或主题)作约束,就能生成更有针对性和实际指导意义的问答对。例如,图1显示了从文档中生成的一组与不同方面相关的问答对。当用户指定了“元素属性”这一关键词时,问题“氧气的原子数是多少?”比起“氧气是什么时候被发现的?”更适合被提问。当用户对“化学反应”这一主题更感兴趣时,问答对4和5更能突出这个方面。然而,现有的问答对生成的工作大多都是用如下步骤生成的:1)提取有意义的短语作为文档中的答案;2)生成有关文档和特定答案范围的问题。现有的方法以及现存的数据集都没有考虑过基于关键词针对文本生成问答对,因此,很容易生成一些无意义的、用户不关心的问答对。
技术实现思路
<br>以下给出一个或本文档来自技高网...

【技术保护点】
1.一种基于关键词的长文本问答对生成系统,其特征在于,系统包括生成模块和评估模块,生成模块输出数据至评估模块,生成模块用于针对段落文本及关键词生成与关键词相关的问答对,评估模块用于通过自动评估的方式评价问答对的质量,其中生成模块基于三阶段生成模型生成与关键词相关的问答对。/n

【技术特征摘要】
1.一种基于关键词的长文本问答对生成系统,其特征在于,系统包括生成模块和评估模块,生成模块输出数据至评估模块,生成模块用于针对段落文本及关键词生成与关键词相关的问答对,评估模块用于通过自动评估的方式评价问答对的质量,其中生成模块基于三阶段生成模型生成与关键词相关的问答对。


2.根据权利要求1所述的基于关键词的长文本问答对生成系统,其特征在于,生成模块基于三阶段生成模型的配置为:生成模块包括依次串联的段落检索单元、答案范围提取单元以及问题生成单元,其中这三个单元单独训练。


3.根据权利要求2所述的基于关键词的长文本问答对生成系统,其特征在于,段落检索单元用于基于信息检索模型,根据关键词从文本中检索出候选问答对在长文本中所处的候选段落,输出到答案范围提取单元,其中信息检索模型包括TF-IDF,BM25及BERT三种检索算法。


4.根据权利要求3所述的基于关键词的长文本问答对生成系统,其特征在于,答案范围提取单元用于从候选段落中提取出可能存在的答案范围,输出到问题生成单元,答案范围提取单元的提取算法包括:命名实体识别、指针网络和组块分析。


5.根据权利要求4所述的基于关键词的长文本问答对生成系统,其特征在于,问题生成单元接收段落检索单元检索出的候选段落和答案范围提取单元提取出的答案范围,根据...

【专利技术属性】
技术研发人员:朱其立沈李斌张盛瑶郭子路李恺健奚宁李波
申请(专利权)人:上海乐言信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1