【技术实现步骤摘要】
一种基于进阶训练的少样本抽取式问答方法
[0001]本专利技术涉及抽取式问答任务
,具体涉及一种基于进阶训练的少样本抽取式问答方法。
技术介绍
[0002]抽取式问答是自然语言处理中一项基础但重要的任务,其可作为多轮对话、开放域问答的基础任务,又可单独作为问答任务独立存在。抽取式问答任务旨在给定问题和问题相关上下文前提下,使用适宜的机器学习或深度学习方法从上下文中预测问题对应答案的起始和结束位置。由于其独特的任务特征,抽取式问答可以广泛应用至智能问答系统、搜索引擎和智能助手等领域。
[0003]为了提升抽取式问答性能,使其快速、准确应用至实际问答场景,研究人员围绕这一任务提出了多种方法或模型,包括BiDAF和R
‑
Net模型。现有技术中还提出了预训练语言模型BERT,通过引入掩码预测和下一句预测两类预训练任务,并在下游任务进行微调,大幅提高了自然语言处理任务性能,同时促使自然语言处理任务向“预训练,微调”范式发展。基于该类预训练语言模型,抽取式问答任务性能也不断提高,并且在一些数据集上取得了优异的效果,甚至超过了人类问答水平。然而,预训练语言模型在抽取式问答任务上取得的性能提升依赖于大量的标注数据,在现实应用场景,标注大量的数据耗时耗力,且大量垂直领域需要专家知识的参与才能标注高质量的训练数据。
[0004]因此,为提升现有模型在少量标注数据下的抽取式问答性能,进一步扩展抽取式问答任务的应用场景和领域,少样本抽取式问答任务相关研究应运而生。相比于全样本抽取式问答任务,在少样本抽 ...
【技术保护点】
【技术特征摘要】
1.一种基于进阶训练的少样本抽取式问答方法,其特征在于,包括:S1:构建数据格式统一的伪问答对数据和问答对数据;其中伪问答对数据中将问题末尾存在的实体或名词短语进行掩盖;S2:获取预训练语言模型;S3:通过伪问答对数据对预训练语言模型进行进阶训练,得到进阶训练模型;S4:对进阶训练模型进行微调,得到最终的语言模型;S5:将待预测的问题文本和给定的上下文文本输入最终的语言模型中,预测得到对应的答案。2.如权利要求1所述的基于进阶训练的少样本抽取式问答方法,其特征在于,步骤S2中,通过如下步骤构建伪问答对数据:S101:收集无标签数据并进行数据清洗和预处理,得到若干个长文本段落P;S102:使用自然语言处理工具对每个长文本段落P进行分句,得到若干个句子S;其中P=(S1,S2,
…
,S
t
),t表示长文本段落P中句子的个数;S103:对于长文本段落P:依次选择句子S
i
作为问题并选择S
i+1
,S
i+2
,
…
,S
t
作为问题Q相关的上下文文本S104:定位问题Q末尾存在的实体或名词短语并通过token[QUESTION]掩盖定位得到的实体或名词短语,进而结合相应的上下文文本C构建得到一组伪问答对数据式中:T表示一组伪问答对数据;[CLS]和[SEP]表示预训练语言模型输入数据所需的特殊token。3.如权利要求2所述的基于进阶训练的少样本抽取式问答方法,其特征在于:步骤S204中,定位得到的实体或名词短语需满足或4.如权利要求1所述的基于进阶训练的少样本抽取式问答方法,其特征在于,步骤S2中,通过如下步骤构建问答对数据:S211:收集无标签数据并进行数据清洗和预处理,得到若干个长文本段落P;S212:使用自然语言处理工具对每个长文本段落P进行分句,得到若干个句子S;其中P=(S1,S2,
…
,S
t
),t表示长文本段落P中句子的个数;S213:对于长文本段落P:依次选择句子S
i
作为问题并选择S
i+1
,S
i+2
,
…
,S
t
作为问题Q相关的上下文文本S214:在问题Q后添加token[QUESTION],并结合相应的上下文文本C构建得到一组问答对数据式中:T
′
表示一组问答对数据;[CLS]和[SEP]表示预训练语言模型输入数据所需的特殊token。5.如权利要求2或4所述的基于进阶训练的少样本抽取式问答方法,其特征在于:数据清洗和预处理包括:删除无标签数据中的非文字字符、合并无标签数据中的多个换行符,以
及通过换行符对无标签数据进行分段。6.如权利要求1所述的基于进阶训练的少样本抽取式问答方法,其特征在于:步骤S1中,预训练语言模型选用Splinter模型、A...
【专利技术属性】
技术研发人员:李韧,肖桥,杨建喜,陈煜,蒋仕新,王笛,刘新龙,张廷萍,
申请(专利权)人:重庆交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。