模型训练方法技术

技术编号:39838776 阅读:9 留言:0更新日期:2023-12-29 16:24
本申请提供了一种模型训练方法

【技术实现步骤摘要】
模型训练方法、装置及计算机可读存储介质


[0001]本专利技术涉及机器学习与自然语言处理
(NLP

Natural Language Processing)

,具体涉及一种模型训练方法

装置及计算机可读存储介质


技术介绍

[0002]预训练模型是一个通过大量数据上进行训练并被保存下来的网络

可以将其通俗的理解为前人为了解决类似问题所创造出来的一个模型,有了前人的模型,当遇到新的问题时,便不再需要从零开始训练新模型,而可以直接用这个模型入手,通过模型微调进行简单的学习便可解决该新问题

[0003]预训练模型是迁移学习的一种应用

当神经网络在用数据训练模型时,在数据中获取到的信息,其本质就是多层网络一个的权重

将权重提取出来,迁移到其它网络中,其它的网络便学来了这个网络的特征和其所拥有的知识

在自然语言处理领域中,可以通过词嵌入方法将所要处理的词转换成向量,使用基于
Transformers
框架的方法对词向量进行训练以获得预训练模型,将训练得到的预训练模型进行微调,即针对具体的任务进行修正

自然语言处理领域中的预训练模型又可以称之为预训练语言模型
(Pre

trained Language Model

PLM)。
[0004]构建任务特定的提示
(Prompt)
,去调整预训练语言模型是文本分类任务中一种很有前途的方法
(Prompt

tuning)。
在文本分类任务中,可以通过构建标签词表,将分类问题转化为一个预测和标签相关词的问题

因此,这样的问题可以构建一个含有掩码
[MASK]的模板,然后让预训练语言模型去预测
[MASK]位置的单词

至此,分类任务被转化为了一个掩码语言建模问题

[0005]Prompt

tuning
的核心思想是在输入中插入文本片段
(
即模板
)
,并将分类问题转化为掩码语言建模问题,其中关键的一步是使用一个语言表达器,即,在标签词空间
(word space)
和标签空间
(label space)
之间构建一个映射

目前,语言表达器通常是手工构建或通过梯度下降搜索,其所包括的标签词数量通常是有限的,可能难以覆盖每个标签下的所有标签词,因此可能存在覆盖范围有限的问题,进而导致预测结果存在相当大的偏差和高方差


技术实现思路

[0006]本申请实施例要解决的技术问题是提供一种模型训练方法

装置及计算机可读存储介质,能够将更多的样本映射到标签,从而减轻标签词覆盖不全的影响,提高预训练语言模型的性能

[0007]根据本申请的一个方面,至少一个实施例提供了一种模型训练方法,包括:
[0008]获得不同标签下的多个标签词,计算每个标签下的标签词的平均向量,得到每个标签的词平均向量;
[0009]构建模板,所述模板用于在输入文本中插入掩码文本以生成待预测文本,所述掩
码文本中包括有被掩码覆盖的待预测词;
[0010]利用第一训练集训练得到一个预训练语言模型,其中,所述第一训练集包括多个已标注标签的第一训练样本,所述训练包括:
[0011]将所述第一训练样本作为输入文本,根据所述模板生成第一待预测文本;
[0012]利用所述预训练语言模型生成所述第一待预测文本中的待预测词的词向量;根据所述待预测词的词向量与每个标签的词平均向量之间的相似度,确定所述第一训练样本的预测标签;
[0013]根据所述第一训练样本的预测标签和已标注标签,优化所述预训练语言模型

[0014]此外,根据本申请的至少一个实施例,所述根据所述待预测词的词向量与每个标签的词平均向量之间的相似度,确定所述第一训练样本的预测标签,包括:
[0015]计算所述待预测词的词向量与各个标签的词平均向量之间的距离,并选择出最小距离;
[0016]将所述最小距离对应的标签,作为所述第一训练样本的预测标签

[0017]此外,根据本申请的至少一个实施例,在利用第一训练集训练得到一个预训练语言模型之后,所述方法还包括:
[0018]获得多个未标注标签的第二训练样本;
[0019]利用所述预训练语言模型,确定所述第二训练样本的预测标签;
[0020]根据所确定的所述第二训练样本的预测标签,对所述第二训练样本进行标签标注,生成第二训练集

[0021]此外,根据本申请的至少一个实施例,还包括:
[0022]构建多个所述模板,其中,不同模板所生成的待预测文本不同;
[0023]针对每个所述模板,分别利用所述第一训练集训练一个预训练语言模型,得到多个预训练语言模型;
[0024]所述利用所述预训练语言模型,确定所述第二训练样本的预测标签,包括:
[0025]利用每个预训练语言模型,确定第二训练样本在每个标签下的概率;
[0026]将所述概率最大的标签,作为所述第二训练样本的预测标签

[0027]此外,根据本申请的至少一个实施例,还包括:
[0028]构建多个所述模板,其中不同模板所生成的待预测文本不同;
[0029]针对每个所述模板,分别利用所述第一训练集训练一个预训练语言模型,得到多个预训练语言模型;
[0030]所述利用所述预训练语言模型,确定所述第二训练样本的预测标签,包括:
[0031]利用测试集,测试得到每个预训练语言模型的标签预测的准确性指标,根据所述准确性指标设置各个预训练语言模型的权重,所述权重与所述准确性指标正相关;
[0032]利用每个预训练语言模型,确定第二训练样本在每个标签下的概率;
[0033]针对每个标签,根据所述预训练语言模型的权重,对每个预训练语言模型所确定的所述第二训练样本在该标签下的概率进行加权求和,得到所述第二训练样本在该标签的概率统计值;
[0034]将所述概率统计值最大的标签,作为所述第二训练样本的预测标签

[0035]此外,根据本申请的至少一个实施例,在生成所述第二训练集之后,所述方法还包
括:
[0036]利用所述第二训练集,训练得到最终的预训练语言模型

[0037]根据本申请的另一方面,至少一个实施例提供了一种模型训练装置,包括:
[0038]计算模块,用于获得不同标签下的多个标签词,计算每个标签下的标签词的平均向量,得到每个标签的词平均向量;
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种模型训练方法,其特征在于,包括:获得不同标签下的多个标签词,计算每个标签下的标签词的平均向量,得到每个标签的词平均向量;构建模板,所述模板用于在输入文本中插入掩码文本以生成待预测文本,所述掩码文本中包括有被掩码覆盖的待预测词;利用第一训练集训练得到一个预训练语言模型,其中,所述第一训练集包括多个已标注标签的第一训练样本,所述训练包括:将所述第一训练样本作为输入文本,根据所述模板生成第一待预测文本;利用所述预训练语言模型生成所述第一待预测文本中的待预测词的词向量;根据所述待预测词的词向量与每个标签的词平均向量之间的相似度,确定所述第一训练样本的预测标签;根据所述第一训练样本的预测标签和已标注标签,优化所述预训练语言模型
。2.
如权利要求1所述的方法,其特征在于,所述根据所述待预测词的词向量与每个标签的词平均向量之间的相似度,确定所述第一训练样本的预测标签,包括:计算所述待预测词的词向量与各个标签的词平均向量之间的距离,并选择出最小距离;将所述最小距离对应的标签,作为所述第一训练样本的预测标签
。3.
如权利要求1所述的方法,其特征在于,在利用第一训练集训练得到一个预训练语言模型之后,所述方法还包括:获得多个未标注标签的第二训练样本;利用所述预训练语言模型,确定所述第二训练样本的预测标签;根据所确定的所述第二训练样本的预测标签,对所述第二训练样本进行标签标注,生成第二训练集
。4.
如权利要求3所述的方法,其特征在于,还包括:构建多个所述模板,其中,不同模板所生成的待预测文本不同;针对每个所述模板,分别利用所述第一训练集训练一个预训练语言模型,得到多个预训练语言模型;所述利用所述预训练语言模型,确定所述第二训练样本的预测标签,包括:利用每个预训练语言模型,确定第二训练样本在每个标签下的概率;将所述概率最大的标签,作为所述第二训练样本的预测标签
。5.
如权利要求3所述的方法,其特征在于,还包括:构建多个所述模板,其中不同模板所生成的待预测文本不同;针对每个所述模板,分别利用所述第一训练集训练一个预训练语言模型,得到多个预训练语言模型;所述利用所述预训练语言模型,确定所述第二训练样本的预测标签,包括:利用测试集,测试得到每个预训练语言模型的标签预测的准确性指标,根据所述准确性指标设置各个预训练语言模型的权重,所述权重与所述准确性指标正相关;利用每个预训练语言模型,确定第二训练样本在每个标签下的概率;针对每个标签,根据所述预训练语言模型的权重,对每个预训练语言模型所确定的所
述第二训练样本在该标签下的概率进行加权求和,得到所述第二训练样本在该标签的概率统计值;将所述概率统计值最大的标签,作为所述第二训练样本的预测标签
。6.
如权利要求3至5任一项所述的方法,其特征在于,在生成所述第二训练集之后,所述方法还包括:利用所述第二训练集,训练得到最终的预训练语言模型
。7.
一种模型训练装置,其特征在于,包括:计算模块,用于获得不同标签下的多个标签词,计算每个标签下的标签词的平均向量,得到每个标签的词平均...

【专利技术属性】
技术研发人员:罗璐董滨姜珊珊丁磊张永伟
申请(专利权)人:株式会社理光
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1