基于文本分类的候选段落生成及多跳问题回答方法技术

技术编号：37112421 阅读：22 留言：0更新日期：2023-04-01 05:09

本发明专利技术公开了一种基于文本分类的候选段落生成及多跳问题回答方法，属于自然语言处理技术领域。本发明专利技术基于提示语言对段落文本分类为原始问题的候选段落，并通过提供中间跳推理器，使得每个推理步骤基于当前的支持事实，产生了更准确的问题分解；通过提供单跳问题生成器，利用现成的单跳问题数据集来训练一个单跳问题生成器，直接以无监督的方式生成子问题，不再需要对问题分解后进行人工标注，且避免了伪监督可能引入标签噪声的风险；另外，将用于训练单跳问题生成器的单跳问题数据集同样作为单跳问答模型训练的样本之一，使得单跳问答模型与单跳问题生成器所使用的数据更加一致，有利于提升单跳问答模型的预测性能。有利于提升单跳问答模型的预测性能。有利于提升单跳问答模型的预测性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于文本分类的候选段落生成及多跳问题回答方法

[0001]本专利技术涉及自然语言处理
，具体涉及一种基于文本分类的候选段落生成及多跳问题回答方法。

技术介绍

[0002]多跳问题(Multi
‑
hop Questions)指的是那些需要知识图谱进行多跳推理才能回答的问题。例如，若要回答“成龙主演电影的导演是哪些人”这一问题，则需要多个三元组所形成的多跳推理路径<成龙，主演，新警察故事>,<新警察故事，导演，陈木胜>才能够回答。
[0003]多跳问题是近年来自然语言处理领域的一个热门任务，需要聚合多个文档的信息并执行多跳推理来推断出答案，目前采用的方法主要分为两类，第一类利用一步阅读器捕捉问题和相关上下文之间的交互，以预测答案和支持句(即通过预先训练的阅读器模型对输入的问题捕捉问题与相关上下文之间的交互关系，直接输出答案)，这类方法的预测准确度不高。第二类为模拟可解释的多步推理过程，将多跳问题分解为多个简单的单跳问题并求解，但将问题分解的现...

【技术保护点】

【技术特征摘要】
1.一种基于文本分类的候选段落生成及多跳问题回答方法，其特征在于，步骤包括：S1，提取原始问题Q中的关键词并打上标签t；S2，对于给定的段落文本x，使用模板函数p将x转换为语言模型M的输入p(x)，p(x)在原始的所述段落文本x中增加了分类任务的提示语言，所述提示语言中包含需要预测并填写标签的掩码位置；S3，所述语言模型M预测出填入所述掩码位置的标签m；S4，标签转换器v将所述标签m映射为事先构建的标签体系的标签词集合V中对应的标签词v(m)作为预测得到的所述段落文本x的类型；S5，判断所述标签词v(m)与所述标签t是否一致，若是，则将所述段落文本x作为回答所述原始问题Q的候选段落加入到候选段落集中，若否，则过滤掉所述段落文本x；S6，将所述原始问题Q输入到预先训练的段落排序模型中计算得到表征所述候选段落集中的每个所述候选段落与解答所述原始问题Q具有的相关性的概率得分，然后选取得分排名前n的所述候选段落以及排名第一的所述候选段落链接的跳转段落作为解答所述原始问题Q的相关上下文，记为C；S7，将所述原始问题Q、相关上下文C以及前一中间跳得到的子问题
‑
答案对(q，a)输入到以每一跳的输入输出数据为训练样本迭代更新训练的统一阅读器模型Mθ中进行中间跳答案推理，输出当前中间跳对应的子问题
‑
答案对(q，a)和单跳支持句S
k
；S8，以最终跳的前一跳输出的子问题
‑
答案对(q，a)、所述原始问题Q、所述相关上下文C以及预设的答案类型为所述统一阅读器模型Mθ的输入进行最终跳的答案推理，输出所述原始问题Q对应的多跳问题答案A和多跳支持句S。2.根据权利要求1所述的基于文本分类的候选段落生成及多跳问题回答方法，其特征在于，训练步骤S2中的所述语言模型M的方法步骤包括：A1，对于作为训练样本的每个p(x)，计算所述标签词集合V中的每个标签词v(m)填入所述掩码位置的概率分数s
p，v
(m，x)，s
p，v
(m，x)的计算方法通过以下公式(1)表达：s
p，v
(m，x)＝M(v(m)|p(x))
ꢀꢀꢀ
公式(1)A2，通过softmax函数计算概率分布d
p，v
(m，x)，d
p，v
(m，x)，计算方法通过以下公式(2)表达：公式(1)
‑
(2)中，m表示所述标签词v(m)的标签；K表示文本分类任务的标签集合。A3，根据s
p，v
(m，x)和d
p，v
(m，x)，并利用所构造的损失函数，计算模型预测损失，所构造的所述损失函数通过以下公式(3)表达：L＝(1
‑
α)
·
L
CE
+α
·
L
MLM
ꢀꢀꢀꢀ
公式(3)公式(3)中，α表示微调系数；L
CE
表示模型预测的分布d
p，v
(m，x)与真实分布间的差距；L
MLM
表示模型预测的分数s
p，v
(m，x)与真实分数间的差距；A4，判断是否达到模型迭代训练终止条件，
若是，则终止迭代，输出所述语言模型M；若否，则调整模型参数后返回步骤A1继续进行迭代训练。3.根据权利要求2所述的基于文本分类的候选段落生成及多跳问题回答方法，其特征在于，所述语言模型M为由若干个语言子模型M
p
融合形成的融合语言模型，训练所述融合语言模型的方法包括步骤：B1，定义模板函数集合P，所述模板函数集合P中包含若干个不同的所述模板函数p；B2，对于作为训练样本的每个p(x)，通过对应的所述语言子模型M
p
，计算所述标签词集合V中的每个标签词v(m)填入所述掩码位置的概率分数s
p，v
(m，x)，s
p，v
(m，x)的计算方法通过以下公式(4)表达：s
p，v
(m，x)＝M
p
(v(m)|p(x))
ꢀꢀꢀꢀ
公式(4)B3，对关联每个所述模板函数p的s<...

【专利技术属性】
技术研发人员：李响，陈晓旭，魏忠钰，王思远，
申请(专利权)人：浙江浙里信征信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人