基于文本分类的候选段落生成及多跳问题回答方法技术

技术编号:37112421 阅读:12 留言:0更新日期:2023-04-01 05:09
本发明专利技术公开了一种基于文本分类的候选段落生成及多跳问题回答方法,属于自然语言处理技术领域。本发明专利技术基于提示语言对段落文本分类为原始问题的候选段落,并通过提供中间跳推理器,使得每个推理步骤基于当前的支持事实,产生了更准确的问题分解;通过提供单跳问题生成器,利用现成的单跳问题数据集来训练一个单跳问题生成器,直接以无监督的方式生成子问题,不再需要对问题分解后进行人工标注,且避免了伪监督可能引入标签噪声的风险;另外,将用于训练单跳问题生成器的单跳问题数据集同样作为单跳问答模型训练的样本之一,使得单跳问答模型与单跳问题生成器所使用的数据更加一致,有利于提升单跳问答模型的预测性能。有利于提升单跳问答模型的预测性能。有利于提升单跳问答模型的预测性能。

【技术实现步骤摘要】
基于文本分类的候选段落生成及多跳问题回答方法


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于文本分类的候选段落生成及多跳问题回答方法。

技术介绍

[0002]多跳问题(Multi

hop Questions)指的是那些需要知识图谱进行多跳推理才能回答的问题。例如,若要回答“成龙主演电影的导演是哪些人”这一问题,则需要多个三元组所形成的多跳推理路径<成龙,主演,新警察故事>,<新警察故事,导演,陈木胜>才能够回答。
[0003]多跳问题是近年来自然语言处理领域的一个热门任务,需要聚合多个文档的信息并执行多跳推理来推断出答案,目前采用的方法主要分为两类,第一类利用一步阅读器捕捉问题和相关上下文之间的交互,以预测答案和支持句(即通过预先训练的阅读器模型对输入的问题捕捉问题与相关上下文之间的交互关系,直接输出答案),这类方法的预测准确度不高。第二类为模拟可解释的多步推理过程,将多跳问题分解为多个简单的单跳问题并求解,但将问题分解的现有方法存在以下两个问题:
[0004]1、问题分解高度依赖人工标注或自动构造的伪监督,前者需要大量时间进行人工标注,后者则可能引入标签噪声;
[0005]2、单跳问题的生成仅基于原始问题,不考虑每个跳转推理步骤涉及的支持事实,这通常会导致错误引导的分解和不准确的解释,从而预测出不准确的问题答案。
[0006]另外,多跳问题的回答需要聚合多个文档(候选段落)的信息,所聚合的文档与解答多跳问题的有关程度是确保多跳问题回答准确性的一个重要前提,因此在众多段落中如何快速且准确地筛选出候选段落成为多跳问题解答亟待解决的一个技术问题。

技术实现思路

[0007]本专利技术提供了一种基于文本分类的候选段落生成及多跳问题问答方法,首先利用提示学习的思想从众多段落中快速且准确地提取出解答多跳问题所需的候选段落,然后通过提供中间跳推理器,使得每个推理步骤基于当前的支持事实,产生了更准确的问题分解,从而使得整个多跳推理过程更精确、更稳健;通过提供单跳问题生成器,利用现成的单跳问题数据集来训练一个单跳问题生成器,直接以无监督的方式生成子问题,不再需要对问题分解后进行人工标注,且避免了伪监督可能引入标签噪声的风险;另外,将用于训练单跳问题生成器的单跳问题数据集同样作为单跳问答模型训练的样本之一,使得单跳问答模型与单跳问题生成器所使用的数据更加一致,有利于提升单跳问答模型的预测性能。
[0008]为达此目的,本专利技术采用以下技术方案:
[0009]提供一种基于文本分类的候选段落生成及多跳问题回答方法,步骤包括:
[0010]S1,提取原始问题Q中的关键词并打上标签t;
[0011]S2,对于给定的段落文本x,使用模板函数p将x转换为语言模型M的输入p(x),p(x)在原始的所述段落文本x中增加了分类任务的提示语言,所述提示语言中包含需要预测并
填写标签的掩码位置;
[0012]S3,所述语言模型M预测出填入所述掩码位置的标签m;
[0013]S4,标签转换器v将所述标签m映射为事先构建的标签体系的标签词集合V中对应的标签词v(m)作为预测得到的所述段落文本x的类型;
[0014]S5,判断所述标签词v(m)与所述标签t是否一致,
[0015]若是,则将所述段落文本x作为回答所述原始问题Q的候选段落加入到候选段落集中,
[0016]若否,则过滤掉所述段落文本x;
[0017]S6,将所述原始问题Q输入到预先训练的段落排序模型中计算得到表征所述候选段落集中的每个所述候选段落与解答所述原始问题Q具有的相关性的概率得分,然后选取得分排名前n的所述候选段落以及排名第一的所述候选段落链接的跳转段落作为解答所述原始问题Q 的相关上下文,记为C;
[0018]S7,将所述原始问题Q、相关上下文C以及前一中间跳得到的子问题

答案对(q,a)输入到以每一跳的输入输出数据为训练样本迭代更新训练的统一阅读器模型Mθ中进行中间跳答案推理,输出当前中间跳对应的子问题

答案对(q,a)和单跳支持句S
k

[0019]S8,以最终跳的前一跳输出的子问题

答案对9q,a)、所述原始问题Q、所述相关上下文C以及预设的答案类型为所述统一阅读器模型Mθ的输入进行最终跳的答案推理,输出所述原始问题Q对应的多跳问题答案A和多跳支持句S。
[0020]作为优选,训练步骤S2中的所述语言模型M的方法步骤包括:
[0021]A1,对于作为训练样本的每个p(x),计算所述标签词集合V中的每个标签词v(m)填入所述掩码位置的概率分数s
p,v
(m,x),s
p,v
(m,x)的计算方法通过以下公式(1)表达:
[0022]s
p,v
(m,x)=M(v(m)|p(x))
ꢀꢀꢀ
公式(1)
[0023]A2,通过softmax函数计算概率分布d
p,v
(m,x),d
p,v
(m,x),计算方法通过以下公式(2) 表达:
[0024][0025]公式(1)

(2)中,m表示所述标签词v(m)的标签;
[0026]K表示文本分类任务的标签集合。
[0027]A3,根据s
p,v
(m,x)和d
p,v
(m,x),并利用所构造的损失函数,计算模型预测损失,所构造的所述损失函数通过以下公式(3)表达:
[0028]L=(1

α)
·
L
CE

·
L
MLM
ꢀꢀꢀ
公式(3)
[0029]公式(3)中,α表示微调系数;
[0030]L
CE
表示模型预测的分布d
p,v
(m,x)与真实分布间的差距;
[0031]L
MLM
表示模型预测的分数s
p,v
(m,x)与真实分数间的差距;
[0032]A4,判断是否达到模型迭代训练终止条件,
[0033]若是,则终止迭代,输出所述语言模型M;
[0034]若否,则调整模型参数后返回步骤A1继续进行迭代训练。
[0035]作为优选,所述语言模型M为由若干个语言子模型M
p
融合形成的融合语言模型,训练所述融合语言模型的方法包括步骤:
[0036]B1,定义模板函数集合P,所述模板函数集合P中包含若干个不同的所述模板函数p;
[0037]B2,对于作为训练样本的每个p(x),通过对应的所述语言子模型M
p
,计算所述标签词集合V中的每个标签词v(m)填入所述掩码位置的概率分数s
...

【技术保护点】

【技术特征摘要】
1.一种基于文本分类的候选段落生成及多跳问题回答方法,其特征在于,步骤包括:S1,提取原始问题Q中的关键词并打上标签t;S2,对于给定的段落文本x,使用模板函数p将x转换为语言模型M的输入p(x),p(x)在原始的所述段落文本x中增加了分类任务的提示语言,所述提示语言中包含需要预测并填写标签的掩码位置;S3,所述语言模型M预测出填入所述掩码位置的标签m;S4,标签转换器v将所述标签m映射为事先构建的标签体系的标签词集合V中对应的标签词v(m)作为预测得到的所述段落文本x的类型;S5,判断所述标签词v(m)与所述标签t是否一致,若是,则将所述段落文本x作为回答所述原始问题Q的候选段落加入到候选段落集中,若否,则过滤掉所述段落文本x;S6,将所述原始问题Q输入到预先训练的段落排序模型中计算得到表征所述候选段落集中的每个所述候选段落与解答所述原始问题Q具有的相关性的概率得分,然后选取得分排名前n的所述候选段落以及排名第一的所述候选段落链接的跳转段落作为解答所述原始问题Q的相关上下文,记为C;S7,将所述原始问题Q、相关上下文C以及前一中间跳得到的子问题

答案对(q,a)输入到以每一跳的输入输出数据为训练样本迭代更新训练的统一阅读器模型Mθ中进行中间跳答案推理,输出当前中间跳对应的子问题

答案对(q,a)和单跳支持句S
k
;S8,以最终跳的前一跳输出的子问题

答案对(q,a)、所述原始问题Q、所述相关上下文C以及预设的答案类型为所述统一阅读器模型Mθ的输入进行最终跳的答案推理,输出所述原始问题Q对应的多跳问题答案A和多跳支持句S。2.根据权利要求1所述的基于文本分类的候选段落生成及多跳问题回答方法,其特征在于,训练步骤S2中的所述语言模型M的方法步骤包括:A1,对于作为训练样本的每个p(x),计算所述标签词集合V中的每个标签词v(m)填入所述掩码位置的概率分数s
p,v
(m,x),s
p,v
(m,x)的计算方法通过以下公式(1)表达:s
p,v
(m,x)=M(v(m)|p(x))
ꢀꢀꢀ
公式(1)A2,通过softmax函数计算概率分布d
p,v
(m,x),d
p,v
(m,x),计算方法通过以下公式(2)表达:公式(1)

(2)中,m表示所述标签词v(m)的标签;K表示文本分类任务的标签集合。A3,根据s
p,v
(m,x)和d
p,v
(m,x),并利用所构造的损失函数,计算模型预测损失,所构造的所述损失函数通过以下公式(3)表达:L=(1

α)
·
L
CE

·
L
MLM
ꢀꢀꢀꢀ
公式(3)公式(3)中,α表示微调系数;L
CE
表示模型预测的分布d
p,v
(m,x)与真实分布间的差距;L
MLM
表示模型预测的分数s
p,v
(m,x)与真实分数间的差距;A4,判断是否达到模型迭代训练终止条件,
若是,则终止迭代,输出所述语言模型M;若否,则调整模型参数后返回步骤A1继续进行迭代训练。3.根据权利要求2所述的基于文本分类的候选段落生成及多跳问题回答方法,其特征在于,所述语言模型M为由若干个语言子模型M
p
融合形成的融合语言模型,训练所述融合语言模型的方法包括步骤:B1,定义模板函数集合P,所述模板函数集合P中包含若干个不同的所述模板函数p;B2,对于作为训练样本的每个p(x),通过对应的所述语言子模型M
p
,计算所述标签词集合V中的每个标签词v(m)填入所述掩码位置的概率分数s
p,v
(m,x),s
p,v
(m,x)的计算方法通过以下公式(4)表达:s
p,v
(m,x)=M
p
(v(m)|p(x))
ꢀꢀꢀꢀ
公式(4)B3,对关联每个所述模板函数p的s<...

【专利技术属性】
技术研发人员:李响陈晓旭魏忠钰王思远
申请(专利权)人:浙江浙里信征信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1