【技术实现步骤摘要】
模型训练方法、装置及计算机可读存储介质
[0001]本专利技术涉及机器学习与自然语言处理
(NLP
,
Natural Language Processing)
,具体涉及一种模型训练方法
、
装置及计算机可读存储介质
。
技术介绍
[0002]预训练模型是一个通过大量数据上进行训练并被保存下来的网络
。
可以将其通俗的理解为前人为了解决类似问题所创造出来的一个模型,有了前人的模型,当遇到新的问题时,便不再需要从零开始训练新模型,而可以直接用这个模型入手,通过模型微调进行简单的学习便可解决该新问题
。
[0003]预训练模型是迁移学习的一种应用
。
当神经网络在用数据训练模型时,在数据中获取到的信息,其本质就是多层网络一个的权重
。
将权重提取出来,迁移到其它网络中,其它的网络便学来了这个网络的特征和其所拥有的知识
。
在自然语言处理领域中,可以通过词嵌入方法将所要处理的词转换成向量,使用基于
Transformers
框架的方法对词向量进行训练以获得预训练模型,将训练得到的预训练模型进行微调,即针对具体的任务进行修正
。
自然语言处理领域中的预训练模型又可以称之为预训练语言模型
(Pre
‑
trained Language Model
,
PLM)。
[0004]构建任务特定的提示
( ...
【技术保护点】
【技术特征摘要】
1.
一种模型训练方法,其特征在于,包括:获得不同标签下的多个标签词,计算每个标签下的标签词的平均向量,得到每个标签的词平均向量;构建模板,所述模板用于在输入文本中插入掩码文本以生成待预测文本,所述掩码文本中包括有被掩码覆盖的待预测词;利用第一训练集训练得到一个预训练语言模型,其中,所述第一训练集包括多个已标注标签的第一训练样本,所述训练包括:将所述第一训练样本作为输入文本,根据所述模板生成第一待预测文本;利用所述预训练语言模型生成所述第一待预测文本中的待预测词的词向量;根据所述待预测词的词向量与每个标签的词平均向量之间的相似度,确定所述第一训练样本的预测标签;根据所述第一训练样本的预测标签和已标注标签,优化所述预训练语言模型
。2.
如权利要求1所述的方法,其特征在于,所述根据所述待预测词的词向量与每个标签的词平均向量之间的相似度,确定所述第一训练样本的预测标签,包括:计算所述待预测词的词向量与各个标签的词平均向量之间的距离,并选择出最小距离;将所述最小距离对应的标签,作为所述第一训练样本的预测标签
。3.
如权利要求1所述的方法,其特征在于,在利用第一训练集训练得到一个预训练语言模型之后,所述方法还包括:获得多个未标注标签的第二训练样本;利用所述预训练语言模型,确定所述第二训练样本的预测标签;根据所确定的所述第二训练样本的预测标签,对所述第二训练样本进行标签标注,生成第二训练集
。4.
如权利要求3所述的方法,其特征在于,还包括:构建多个所述模板,其中,不同模板所生成的待预测文本不同;针对每个所述模板,分别利用所述第一训练集训练一个预训练语言模型,得到多个预训练语言模型;所述利用所述预训练语言模型,确定所述第二训练样本的预测标签,包括:利用每个预训练语言模型,确定第二训练样本在每个标签下的概率;将所述概率最大的标签,作为所述第二训练样本的预测标签
。5.
如权利要求3所述的方法,其特征在于,还包括:构建多个所述模板,其中不同模板所生成的待预测文本不同;针对每个所述模板,分别利用所述第一训练集训练一个预训练语言模型,得到多个预训练语言模型;所述利用所述预训练语言模型,确定所述第二训练样本的预测标签,包括:利用测试集,测试得到每个预训练语言模型的标签预测的准确性指标,根据所述准确性指标设置各个预训练语言模型的权重,所述权重与所述准确性指标正相关;利用每个预训练语言模型,确定第二训练样本在每个标签下的概率;针对每个标签,根据所述预训练语言模型的权重,对每个预训练语言模型所确定的所
述第二训练样本在该标签下的概率进行加权求和,得到所述第二训练样本在该标签的概率统计值;将所述概率统计值最大的标签,作为所述第二训练样本的预测标签
。6.
如权利要求3至5任一项所述的方法,其特征在于,在生成所述第二训练集之后,所述方法还包括:利用所述第二训练集,训练得到最终的预训练语言模型
。7.
一种模型训练装置,其特征在于,包括:计算模块,用于获得不同标签下的多个标签词,计算每个标签下的标签词的平均向量,得到每个标签的词平均...
【专利技术属性】
技术研发人员:罗璐,董滨,姜珊珊,丁磊,张永伟,
申请(专利权)人:株式会社理光,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。