一种自然语言推理微调方法、系统、装置及存储介质制造方法及图纸

技术编号:33811320 阅读:19 留言:0更新日期:2022-06-16 10:21
本发明专利技术公开了一种自然语言推理微调方法、系统、装置及存储介质,其中方法包括:获取前提文本与假设文本,对前提文本与假设文本进行分词,获得文本的离散编码;将离散编码输入预训练模型中进行句向量建模,获得隐藏向量;将隐藏向量拆分为前提隐藏向量和假设隐藏向量;将前提隐藏向量的句首向量输入到推理模块进行推理任务,并获取第一损失;将前提隐藏向量输入到文本生成模块进行生成任务,并获取第二损失;将第一损失和第二损失进行相加,根据相加获得的损失优化预训练模型、推理模块以及文本生成模块。本发明专利技术能够充分学习句子间的语义相关性,在原本的推理任务中取得更好的效果。本发明专利技术可广泛应用于自然语言推理技术领域。发明专利技术可广泛应用于自然语言推理技术领域。发明专利技术可广泛应用于自然语言推理技术领域。

【技术实现步骤摘要】
一种自然语言推理微调方法、系统、装置及存储介质


[0001]本专利技术涉及自然语言推理
,尤其涉及一种自然语言推理微调方法、系统、装置及存储介质。

技术介绍

[0002]自然语言推理是自然语言理解任务之一,是评估模型语言理解能力的重要任务,该项任务对于模型的语义理解能力,语义结构建模能力等要求较高,自然语言推理任务也可以称为文本蕴含任务,该任务将前提和假设的语义关系分为蕴含、矛盾和中立三类或者蕴含和非蕴含两类,是句子对分类任务。一个蕴含关系的例子如下,给定前提“一个骑马的人跳过了一架坏掉的飞机。”,任务目标是判断是否可以通过该前提推理出给定的假设“一个人在户外,骑在马上。”。现存的自然语言推理语料库包括斯坦福自然语言推理语料(SNLI),来自科学问答的文本蕴涵数据集(SciTail)和多种类自然语言推理语料库(MultiNLI)等。现有的预训练

微调方法在自然语言推理任务中取得了一定的效果,但还存在以下缺点:1)预训练模型在训练集较少的推理任务中无法充分发挥模型的性能,对于语义的提取不够充分;2)现存的多任务学习则需要在多个不同的任务上联合学习,数据量大,训练时间长,损失函数设计复杂,适用性不强。

技术实现思路

[0003]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种自然语言推理微调方法、系统、装置及存储介质。
[0004]本专利技术所采用的技术方案是:
[0005]一种自然语言推理微调方法,包括:
[0006]获取前提文本与假设文本,对前提文本与假设文本进行分词,获得文本的离散编码;
[0007]将离散编码输入预训练模型中进行句向量建模,获得隐藏向量;
[0008]将隐藏向量拆分为前提隐藏向量和假设隐藏向量;
[0009]将前提隐藏向量的句首向量输入到推理模块进行推理任务,并获取第一损失;
[0010]将前提隐藏向量输入到文本生成模块进行生成任务,并获取第二损失;
[0011]将第一损失和第二损失进行相加,根据相加获得的损失优化预训练模型、推理模块以及文本生成模块。
[0012]进一步地,所述对前提文本与假设文本进行分词,获得文本的离散编码,包括:
[0013]将前提文本表示为其中m为前提文本的长度;
[0014]将假设文本表示为其中n为假设文本的长度;
[0015]将前提文本与假设文本连接起来作为联合文本,联合文本表示为将前提文本与假设文本连接起来作为联合文本,联合文本表示为其中,句首的CLS作为句向量表示词,句中SEP作为句子对的分
割词,以及文本的结尾;
[0016]将联合文本输入到分词器得到文本的离散编码。
[0017]进一步地,所述将离散编码输入预训练模型中进行句向量建模,获得隐藏向量,包括:
[0018]将文本的离散编码输入到预训练模型BERT中,经过编码后获得隐藏向量,隐藏向量表示为
[0019]进一步地,所述将隐藏向量拆分为前提隐藏向量和假设隐藏向量,包括:
[0020]将隐藏向量进行拆分得到前提隐藏向量和假设隐藏向量如下:
[0021]前提隐藏向量:
[0022]假设隐藏向量:
[0023]进一步地,所述将前提隐藏向量的句首向量输入到推理模块进行推理任务,并获取第一损失,包括:
[0024]将前提隐藏向量中的句首向量h
CLS
,输入到推理模块的MLP网络中,并根据分类器获取样本预测类的概率分布,获取最大的概率作为预测类别;
[0025]将预测类别和预设的标签进行交叉熵损失计算,得到推理任务的第一损失。
[0026]进一步地,所述将前提隐藏向量输入到文本生成模块进行生成任务,并获取第二损失,包括:
[0027]将前提隐藏向量以及样本的标签嵌入输入到BiLSTM网络中,其中,前提隐藏向量中的每个向量作为BiLSTM网络每一个时间步的输入;
[0028]获取每一个时间步生成的单词的概率分布,选取最高概率的单词作为输出单词,生成句子;
[0029]将生成的句子和原本样例的假设文本进行交叉熵损失计算,得到生成任务的第二损失。
[0030]进一步地,所述生成任务中采用到的标签根据推理任务是三分类还是二分类进行自适应地选择;
[0031]标签信息通过标签嵌入矩阵得到标签嵌入向量,作为文本生成模块中BiLSTM网络的起始输入向量,表明当前生成的假设文本和前提文本之间的蕴含关系,从而指导BiLSTM网络进行生成;
[0032]利用Softmax函数计算每一步生成的单词概率分布,选择最高的概率的单词作为最终生成的单词。
[0033]本专利技术所采用的另一技术方案是:
[0034]一种自然语言推理微调系统,包括:
[0035]文本分词模块,用于获取前提文本与假设文本,对前提文本与假设文本进行分词,获得文本的离散编码;
[0036]句子建模模块,用于将离散编码输入预训练模型中进行句向量建模,获得隐藏向量;
[0037]向量拆分模块,用于将隐藏向量拆分为前提隐藏向量和假设隐藏向量;
[0038]文本推理模块,用于将前提隐藏向量的句首向量输入到推理模块进行推理任务,
并获取第一损失;
[0039]文本生成模块,用于将前提隐藏向量输入到文本生成模块进行生成任务,并获取第二损失;
[0040]网络优化模块,用于将第一损失和第二损失进行相加,根据相加获得的损失优化预训练模型、推理模块以及文本生成模块。
[0041]本专利技术所采用的另一技术方案是:
[0042]一种自然语言推理微调装置,包括:
[0043]至少一个处理器;
[0044]至少一个存储器,用于存储至少一个程序;
[0045]当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
[0046]本专利技术所采用的另一技术方案是:
[0047]一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
[0048]本专利技术的有益效果是:本专利技术能够充分学习句子间的语义相关性,在原本的推理任务中取得更好的效果;对于所有的局间关系推理任务都可采用此种形式进行训练,具有优良的普适性。
附图说明
[0049]为了更清楚地说明本专利技术实施例或者现有技术中的技术方案,下面对本专利技术实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本专利技术的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
[0050]图1是本专利技术实施例中一种自然语言推理微调方法的示意图。
具体实施方式
[0051]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自然语言推理微调方法,其特征在于,包括以下步骤:获取前提文本与假设文本,对前提文本与假设文本进行分词,获得文本的离散编码;将离散编码输入预训练模型中进行句向量建模,获得隐藏向量;将隐藏向量拆分为前提隐藏向量和假设隐藏向量;将前提隐藏向量的句首向量输入到推理模块进行推理任务,并获取第一损失;将前提隐藏向量输入到文本生成模块进行生成任务,并获取第二损失;将第一损失和第二损失进行相加,根据相加获得的损失优化预训练模型、推理模块以及文本生成模块。2.根据权利要求1所述的一种自然语言推理微调方法,其特征在于,所述对前提文本与假设文本进行分词,获得文本的离散编码,包括:将前提文本表示为其中m为前提文本的长度;将假设文本表示为其中n为假设文本的长度;将前提文本与假设文本连接起来作为联合文本,联合文本表示为将前提文本与假设文本连接起来作为联合文本,联合文本表示为其中,句首的CLS作为句向量表示词,句中SEP作为句子对的分割词,以及文本的结尾;将联合文本输入到分词器得到文本的离散编码。3.根据权利要求2所述的一种自然语言推理微调方法,其特征在于,所述将离散编码输入预训练模型中进行句向量建模,获得隐藏向量,包括:将文本的离散编码输入到预训练模型BERT中,经过编码后获得隐藏向量,隐藏向量表示为4.根据权利要求3所述的一种自然语言推理微调方法,其特征在于,所述将隐藏向量拆分为前提隐藏向量和假设隐藏向量,包括:将隐藏向量进行拆分得到前提隐藏向量和假设隐藏向量如下:前提隐藏向量:假设隐藏向量:5.根据权利要求1所述的一种自然语言推理微调方法,其特征在于,所述将前提隐藏向量的句首向量输入到推理模块进行推理任务,并获取第一损失,包括:将前提隐藏向量中的句首向量h
CLS
,输入到推理模块的MLP网络中,并根据分类器获取样本预测类的概率分布,获取最大的概率作为预测类别;将预测类别和预设的标签进行交叉熵损失计算,得到推理任务的第一损失。6.根据权利要求5所述的一种自然语言推理微调方法,其特征在于,所述将前提...

【专利技术属性】
技术研发人员:苏锦钿张明锋
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1