【技术实现步骤摘要】
基于混合专家模型的复杂度可控的多样化问题生成方法
[0001]本专利技术属于自然语言处理领域,涉及一种混合专家模型的复杂度可控的多样化问题生成方法。
技术介绍
[0002]近年来,随着人工智能的快速发展,自然语言处理技术得到了越来越广泛的应用。自然语言处理分为自然语言理解和自然语言生成两大部分。其中,问题生成(Question Generation,QG)任务是自然语言生成中的典型任务。问题生成指的是从一系列数据源中(例如文本、图片、知识库)自动生成自然语言问题。问题生成任务的应用前景十分广阔,例如,在人机交互领域,通过提问与用户产生对话的聊天机器人(Siri、微软小冰等);在教育领域,通过根据课程材料生成问题对学生的水平进行测试,了解学生对知识的掌握程度;另外,作为自动问答的对偶任务,QG任务可以通过生成大量高质量的问题,为训练QA模型提供大规模数据集,从而提升QA模型的效果。
[0003]目前问题生成的工作主要集中在阅读理解领域,以事实文本为依据,针对给定答案生成一个自然语言表述的问题。传统的QG方法主要利用手工 ...
【技术保护点】
【技术特征摘要】
1.一种基于混合专家模型的复杂度可控的多样化问题生成方法,其特征在于,该方法包括如下步骤:1)挖掘问答数据集特征,提出一种自适应的问题复杂度的衡量方法;2)使用该问题复杂度衡量方法对现有数据集中的数据进行复杂度标注,并划分为训练集、验证集和测试集;3)使用双向LSTM网络对给定文本和答案进行编码;4)使用LSTM网络对编码结果进行解码,生成问题;5)在解码过程中使用隐向量建模不同复杂度的问题模板,从而指导满足给定复杂度的问题生成;6)使用混合专家模型选择不同的文本内容,从而生成不同的问题,提升问题生成的多样性。2.根据权利要求书1所述的基于混合专家模型的复杂度可控的多样化问题生成方法,其特征在于,所述步骤1)中,从问题、文本以及两者间的交互这三个角度提出了五种复杂度影响因素,并设计了一种自适应的问题复杂度的衡量方法,这五种因素包括:1)问题中的从句个数1)问题中的从句个数从句个数越多,问题越复杂;2)问题中的修饰定语数量2)问题中的修饰定语数量定语越多,问题越难回答;3)文本中句子的关联程度3)文本中句子的关联程度关联越高,问题越易回答;使用文本中句子的主题分布的相似度来表示句子关联程度,首先训练主题模型,计算每个句子的主题分布,然后使用Kullback
‑
Leibler散度衡量这些主题分布的相似性,计算方式如下:其中,t
i
和t
j
分别表示文本中第i个和第j个句子的主题分布,N是文本中的句子个数,最终,句子主题分布的相似度越高,句子关联性就越高,问题就越简单;4)问题中的实体...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。