一种基于进阶训练的少样本抽取式问答方法技术

技术编号:39412870 阅读:12 留言:0更新日期:2023-11-19 16:04
本发明专利技术涉及抽取式问答任务技术领域,具体涉及一种基于进阶训练的少样本抽取式问答方法,包括:构建数据格式统一的伪问答对数据和问答对数据;伪问答对数据中将问题末尾存在的实体或名词短语进行掩盖;获取预训练语言模型;通过伪问答对数据对预训练语言模型进行进阶训练,得到进阶训练模型;对进阶训练模型进行微调,得到最终的语言模型;将待预测的问题文本和给定的上下文文本输入最终的语言模型中,预测得到对应的答案。本发明专利技术能够有效改善预训练语言模型在预训练阶段和微调阶段存在的任务差异以及输入数据格式差异,从而提高少样本抽取式问答的有效性和实用性,并为少样本抽取式问答任务提供一种新的解决思路。抽取式问答任务提供一种新的解决思路。抽取式问答任务提供一种新的解决思路。

【技术实现步骤摘要】
一种基于进阶训练的少样本抽取式问答方法


[0001]本专利技术涉及抽取式问答任务
,具体涉及一种基于进阶训练的少样本抽取式问答方法。

技术介绍

[0002]抽取式问答是自然语言处理中一项基础但重要的任务,其可作为多轮对话、开放域问答的基础任务,又可单独作为问答任务独立存在。抽取式问答任务旨在给定问题和问题相关上下文前提下,使用适宜的机器学习或深度学习方法从上下文中预测问题对应答案的起始和结束位置。由于其独特的任务特征,抽取式问答可以广泛应用至智能问答系统、搜索引擎和智能助手等领域。
[0003]为了提升抽取式问答性能,使其快速、准确应用至实际问答场景,研究人员围绕这一任务提出了多种方法或模型,包括BiDAF和R

Net模型。现有技术中还提出了预训练语言模型BERT,通过引入掩码预测和下一句预测两类预训练任务,并在下游任务进行微调,大幅提高了自然语言处理任务性能,同时促使自然语言处理任务向“预训练,微调”范式发展。基于该类预训练语言模型,抽取式问答任务性能也不断提高,并且在一些数据集上取得了优异的效果,甚至超过了人类问答水平。然而,预训练语言模型在抽取式问答任务上取得的性能提升依赖于大量的标注数据,在现实应用场景,标注大量的数据耗时耗力,且大量垂直领域需要专家知识的参与才能标注高质量的训练数据。
[0004]因此,为提升现有模型在少量标注数据下的抽取式问答性能,进一步扩展抽取式问答任务的应用场景和领域,少样本抽取式问答任务相关研究应运而生。相比于全样本抽取式问答任务,在少样本抽取式问答中,由于训练数据的匮乏,现有预训练语言模型在训练任务上与下游抽取式问答存在的差异得不到有效消除。因此,如何改善预训练语言模型在预训练和微调阶段存在的任务差异以及输入数据格式差异是亟需解决的技术问题。

技术实现思路

[0005]针对上述现有技术的不足,本专利技术所要解决的技术问题是:如何提供一种基于进阶训练的少样本抽取式问答方法,能够有效改善预训练语言模型在预训练阶段和微调阶段存在的任务差异以及输入数据格式差异,从而提高少样本抽取式问答的有效性和实用性,并为少样本抽取式问答任务提供一种新的解决思路。
[0006]为了解决上述技术问题,本专利技术采用了如下的技术方案:
[0007]一种基于进阶训练的少样本抽取式问答方法,包括:
[0008]S1:构建数据格式统一的伪问答对数据和问答对数据;其中伪问答对数据中将问题末尾存在的实体或名词短语进行掩盖;
[0009]S2:获取预训练语言模型;
[0010]S3:通过伪问答对数据对预训练语言模型进行进阶训练,得到进阶训练模型;
[0011]S4:对进阶训练模型进行微调,得到最终的语言模型;
[0012]S5:将待预测的问题文本和给定的上下文文本输入最终的语言模型中,预测得到对应的答案。
[0013]优选的,通过如下步骤构建伪问答对数据:
[0014]S101:收集无标签数据并进行数据清洗和预处理,得到若干个长文本段落P;
[0015]S102:使用自然语言处理工具对每个长文本段落P进行分句,得到若干个句子S;其中P=(S1,S2,

,S
t
),t表示长文本段落P中句子的个数;
[0016]S103:对于长文本段落P:依次选择句子S
i
作为问题并选择S
i+1
,S
i+2
,

,S
t
作为问题Q相关的上下文文本
[0017]S104:定位问题Q末尾存在的实体或名词短语并通过token[QUESTION]掩盖定位得到的实体或名词短语,进而结合相应的上下文文本C构建得到一组伪问答对数据
[0018]式中:T表示一组伪问答对数据;[CLS]和[SEP]表示预训练语言模型输入数据所需的特殊token。
[0019]优选的,定位得到的实体或名词短语需满足或
[0020]优选的,通过如下步骤构建问答对数据:
[0021]S211:收集无标签数据并进行数据清洗和预处理,得到若干个长文本段落P;
[0022]S212:使用自然语言处理工具对每个长文本段落P进行分句,得到若干个句子S;其中P=(S1,S2,

,S
t
),t表示长文本段落P中句子的个数;
[0023]S213:对于长文本段落P:依次选择句子S
i
作为问题并选择S
i+1
,S
i+2
,

,S
t
作为问题Q相关的上下文文本
[0024]S214:在问题Q后添加token[QUESTION],并结合相应的上下文文本C构建得到一组问答对数据
[0025]式中:T

表示一组问答对数据;[CLS]和[SEP]表示预训练语言模型输入数据所需的特殊token。
[0026]优选的,数据清洗和预处理包括:删除无标签数据中的非文字字符、合并无标签数据中的多个换行符,以及通过换行符对无标签数据进行分段。
[0027]优选的,预训练语言模型选用Splinter模型、ALBert模型、SpanBERT模型或RoBerta模型。
[0028]优选的,预训练语言模型包括BERT编码器,以及包含两个参数矩阵M
S
和M
E
的问答片段选择模块;其中,首先将问题和给定文本输入BERT编码器中,得到对应的隐藏层词向量;然后将隐藏层词向量输入问答片段选择模块中,并进行归一化后处理,得到预测答案开始位置与结束位置概率;
[0029]公式描述如下:
[0030]h=w
BERT
(T);
[0031][0032][0033]式中:p(s=i|T)表示第i个token作为答案开始位置的概率;p(e=i|T)表示第i个token作为答案结束位置的概率;w
BERT
表示预训练语言模型的BERT编码器的权重;表示经过BERT编码器编码后得到的隐藏层词向量;M
S
和M
E
表示问答片段选择模块的参数矩阵;T表示一组伪问答对数据;n表示输入至模型的token总数;i表示token的下标。
[0034]优选的,通过损失函数计算进阶训练时的损失值,并使用反向传播算法更新模型参数,逐步减低损失值的数值大小,以实现预训练语言模型的进阶训练;
[0035]通过如下的损失函数计算进阶训练时的损失值:
[0036]loss=CrossEntropyLoss(start
g
,p(s|T))+CrossEntropyLoss(end
g
,p(e|T));
[0037]式中:loss表示模型进阶训练时的损失值;CrossEntropyLoss表示交叉熵损失函数;start<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于进阶训练的少样本抽取式问答方法,其特征在于,包括:S1:构建数据格式统一的伪问答对数据和问答对数据;其中伪问答对数据中将问题末尾存在的实体或名词短语进行掩盖;S2:获取预训练语言模型;S3:通过伪问答对数据对预训练语言模型进行进阶训练,得到进阶训练模型;S4:对进阶训练模型进行微调,得到最终的语言模型;S5:将待预测的问题文本和给定的上下文文本输入最终的语言模型中,预测得到对应的答案。2.如权利要求1所述的基于进阶训练的少样本抽取式问答方法,其特征在于,步骤S2中,通过如下步骤构建伪问答对数据:S101:收集无标签数据并进行数据清洗和预处理,得到若干个长文本段落P;S102:使用自然语言处理工具对每个长文本段落P进行分句,得到若干个句子S;其中P=(S1,S2,

,S
t
),t表示长文本段落P中句子的个数;S103:对于长文本段落P:依次选择句子S
i
作为问题并选择S
i+1
,S
i+2
,

,S
t
作为问题Q相关的上下文文本S104:定位问题Q末尾存在的实体或名词短语并通过token[QUESTION]掩盖定位得到的实体或名词短语,进而结合相应的上下文文本C构建得到一组伪问答对数据式中:T表示一组伪问答对数据;[CLS]和[SEP]表示预训练语言模型输入数据所需的特殊token。3.如权利要求2所述的基于进阶训练的少样本抽取式问答方法,其特征在于:步骤S204中,定位得到的实体或名词短语需满足或4.如权利要求1所述的基于进阶训练的少样本抽取式问答方法,其特征在于,步骤S2中,通过如下步骤构建问答对数据:S211:收集无标签数据并进行数据清洗和预处理,得到若干个长文本段落P;S212:使用自然语言处理工具对每个长文本段落P进行分句,得到若干个句子S;其中P=(S1,S2,

,S
t
),t表示长文本段落P中句子的个数;S213:对于长文本段落P:依次选择句子S
i
作为问题并选择S
i+1
,S
i+2
,

,S
t
作为问题Q相关的上下文文本S214:在问题Q后添加token[QUESTION],并结合相应的上下文文本C构建得到一组问答对数据式中:T

表示一组问答对数据;[CLS]和[SEP]表示预训练语言模型输入数据所需的特殊token。5.如权利要求2或4所述的基于进阶训练的少样本抽取式问答方法,其特征在于:数据清洗和预处理包括:删除无标签数据中的非文字字符、合并无标签数据中的多个换行符,以
及通过换行符对无标签数据进行分段。6.如权利要求1所述的基于进阶训练的少样本抽取式问答方法,其特征在于:步骤S1中,预训练语言模型选用Splinter模型、A...

【专利技术属性】
技术研发人员:李韧肖桥杨建喜陈煜蒋仕新王笛刘新龙张廷萍
申请(专利权)人:重庆交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1