语言模型训练方法、数据处理方法及装置制造方法及图纸

技术编号:37668116 阅读:9 留言:0更新日期:2023-05-26 04:28
本申请实施例公开了一种语言模型训练方法、数据处理方法及装置。语言模型训练方法包括:获取样本语义数据,包括多个样本语句组成的样本文本、每个样本语句中的各字符在对应样本语句中的第一字符位置信息、以及每个样本语句在样本文本中的第一语句位置信息;将样本语义数据输入待训练的语言模型,对多个样本语句进行乱序处理,得到多个乱序语句组成的乱序文本、每个乱序语句中的各字符在对应乱序语句中的第二字符位置信息,以及每个乱序语句在乱序文本中的第二语句位置信息;对多个乱序语句进行还原处理,得到还原语义数据;基于样本语义数据和还原语义数据进行模型训练。该技术方案能够提升语言模型的模型性能。能够提升语言模型的模型性能。能够提升语言模型的模型性能。

【技术实现步骤摘要】
语言模型训练方法、数据处理方法及装置


[0001]本说明书涉及自然语言处理
,尤其涉及一种语言模型训练方法、数据处理方法及装置。

技术介绍

[0002]目前,机器学习的主流方法大多是有监督学习方法,有监督学习依赖人工标注的标签,这会带来以下缺陷:(1)数据本身提供的信息远比稀疏的标签更加丰富,因此使用有监督学习方法训练模型需要大量的标签数据,并且得到的模型有时候是“脆弱”的;(2)有监督学习通过标签训练得到的模型,往往只能学到一些任务特定的知识,而不能学习到一种通用的知识,因此有监督学习学到的特征表达难以迁移到其他任务。
[0003]自监督学习作为无监督学习范式的一种,特点是不需要人工标注类别标签信息,而是直接利用数据本身作为监督信息,来学习样本数据的特征表达,并用于下游任务。自监督学习旨在对于无标签数据,通过设计辅助任务(Proxy tasks)来挖掘数据自身的表征特性作为监督信息,来提升模型的特征提取能力,这里获取的监督信息不是指自监督学习所面对的原始任务标签,而是构造的辅助任务标签。可见,自监督学习方式能够很好地避免有监督学习所具有的问题。
[0004]在自然语言处理方面,通过自监督学习方式来训练语言模型时,通常采用以下方式:通过随机删除样本语句中的单词来构造辅助任务训练集和标签,从而训练网络预测被删除的单词,以提升模型对于语序特征的提取能力。这种方式由于仅关注被删除的单词,因此学习到的特征较为单一,导致训练出的模型语义理解能力较差。

技术实现思路

[0005]本申请实施例的目的是提供一种语言模型训练方法、数据处理方法及装置,用以解决现有的语言模型训练方式训练出的模型性能较差的问题。
[0006]为解决上述技术问题,本申请实施例是这样实现的:
[0007]一方面,本申请实施例提供一种语言模型训练方法,包括:
[0008]获取样本语义数据;所述样本语义数据包括:多个样本语句组成的样本文本、每个所述样本语句中的各字符在对应样本语句中的第一字符位置信息、以及每个所述样本语句在所述样本文本中的第一语句位置信息;
[0009]将所述样本语义数据输入待训练的语言模型,对所述多个样本语句进行乱序处理,得到所述样本语义数据对应的乱序语义数据;所述乱序语义数据包括:多个乱序语句组成的乱序文本、每个所述乱序语句中的各字符在对应乱序语句中的第二字符位置信息,以及,每个所述乱序语句在所述乱序文本中的第二语句位置信息;
[0010]对所述多个乱序语句进行还原处理,得到所述乱序语义数据对应的还原语义数据;所述还原语义数据包括:多个还原语句组成的还原文本、每个所述还原语句中的各字符在对应还原语句中的第三字符位置信息,以及各所述还原语句在所述还原文本中的第三语
句位置信息;
[0011]基于所述样本语义数据和所述还原语义数据进行模型训练,得到训练后的语言模型。
[0012]另一方面,本申请实施例提供一种数据处理方法,包括:
[0013]获取初始样本数据;所述初始样本数据包括多个初始语句组成的初始文本;
[0014]将所述初始样本数据输入上述一方面所述的训练后的语言模型中,对所述初始样本数据进行处理,得到所述初始样本数据对应的目标样本数据;其中,所述目标样本数据包括多个目标语句组成的目标文本,所述目标样本数据用于训练语义分析类模型。
[0015]再一方面,本申请实施例提供一种语言模型训练装置,包括:
[0016]第一获取模块,用于获取样本语义数据;所述样本语义数据包括:多个样本语句组成的样本文本、每个所述样本语句中的各字符在对应样本语句中的第一字符位置信息、以及每个所述样本语句在所述样本文本中的第一语句位置信息;
[0017]第一乱序模块,用于将所述样本语义数据输入待训练的语言模型,对所述多个样本语句进行乱序处理,得到所述样本语义数据对应的乱序语义数据;所述乱序语义数据包括:多个乱序语句组成的乱序文本、每个所述乱序语句中的各字符在对应乱序语句中的第二字符位置信息,以及,每个所述乱序语句在所述乱序文本中的第二语句位置信息;
[0018]第一还原模块,用于对所述多个乱序语句进行还原处理,得到所述乱序语义数据对应的还原语义数据;所述还原语义数据包括:多个还原语句组成的还原文本、每个所述还原语句中的各字符在对应还原语句中的第三字符位置信息,以及各所述还原语句在所述还原文本中的第三语句位置信息;
[0019]第一训练模块,用于基于所述样本语义数据和所述还原语义数据进行模型训练,得到训练后的语言模型。
[0020]再一方面,本申请实施例提供一种数据处理装置,包括:
[0021]第二获取模块,用于获取初始样本数据;所述初始样本数据包括多个初始语句组成的初始文本;
[0022]处理模块,用于将所述初始样本数据输入上述一方面所述的训练后的语言模型中,对所述初始样本数据进行处理,得到所述初始样本数据对应的目标样本数据;其中,所述目标样本数据包括多个目标语句组成的目标文本,所述目标样本数据用于训练语义分析类模型。
[0023]再一方面,本申请实施例提供一种电子设备,包括处理器和与所述处理器电连接的存储器,所述存储器存储有计算机程序,所述处理器用于从所述存储器调用并执行所述计算机程序以实现上述语言模型训练方法,或者,所述处理器用于从所述存储器调用并执行所述计算机程序以实现上述数据处理方法。
[0024]再一方面,本申请实施例提供一种存储介质,用于存储计算机程序,所述计算机程序能够被处理器执行以实现上述语言模型训练方法,或者,所述计算机程序能够被处理器执行以实现上述数据处理方法。
[0025]采用本申请实施例的技术方案,通过将样本语义数据输入待训练的语言模型,其中,样本语义数据包括多个样本语句组成的样本文本、每个样本语句中的各字符在对应样本语句中的第一字符位置信息、以及每个样本语句在样本文本中的第一语句位置信息。首
先对多个样本语句进行乱序处理,得到样本语义数据对应的乱序语义数据,乱序语义数据包括多个乱序语句组成的乱序文本、每个乱序语句中的各字符在对应乱序语句中的第二字符位置信息,以及每个乱序语句在乱序文本中的第二语句位置信息,然后对多个乱序语句进行还原处理,得到乱序语义数据对应的还原语义数据,还原语义数据包括多个还原语句组成的还原文本、每个还原语句中的各字符在对应还原语句中的第三字符位置信息以及各还原语句在还原文本中的第三语句位置信息,进而基于样本语义数据和还原语义数据进行模型训练,得到训练后的语言模型。可见,该技术方案在训练语言模型过程中,不仅要学习样本语句中各个字符的位置变换预测(即学习语句中字符之间的短距离依赖),还要学习不同样本语句之间的句子乱序预测(即学习不同语句之间的长距离依赖),使得模型训练过程中需要关注的特征表达更加丰富、完整,同时模型训练的任务也相对较难,使得模型拟合速度不会过快,从而随着训练时间的推移,学习到的丰富、完整的特征使得语言模型能够更好地理解语句的整体语义信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型训练方法,其特征在于,包括:获取样本语义数据;所述样本语义数据包括:多个样本语句组成的样本文本、每个所述样本语句中的各字符在对应样本语句中的第一字符位置信息、以及每个所述样本语句在所述样本文本中的第一语句位置信息;将所述样本语义数据输入待训练的语言模型,对所述多个样本语句进行乱序处理,得到所述样本语义数据对应的乱序语义数据;所述乱序语义数据包括:多个乱序语句组成的乱序文本、每个所述乱序语句中的各字符在对应乱序语句中的第二字符位置信息,以及,每个所述乱序语句在所述乱序文本中的第二语句位置信息;对所述多个乱序语句进行还原处理,得到所述乱序语义数据对应的还原语义数据;所述还原语义数据包括:多个还原语句组成的还原文本、每个所述还原语句中的各字符在对应还原语句中的第三字符位置信息,以及各所述还原语句在所述还原文本中的第三语句位置信息;基于所述样本语义数据和所述还原语义数据进行模型训练,得到训练后的语言模型。2.根据权利要求1所述的方法,其特征在于,所述语言模型包括干扰子模型和辨别子模型;所述干扰子模型,用于对所述多个样本语句进行乱序处理,得到所述样本语义数据对应的所述乱序语义数据;所述辨别子模型,用于对所述多个乱序语句进行还原处理,得到所述乱序语义数据对应的所述还原语义数据;所述基于所述样本语义数据和所述还原语义数据进行模型训练,得到训练后的语言模型,包括:基于所述样本语义数据和所述还原语义数据,对所述干扰子模型和/或所述辨别子模型的模型参数进行迭代训练,得到所述训练后的语言模型。3.根据权利要求1所述的方法,其特征在于,所述对所述多个样本语句进行乱序处理,包括:确定所述多个样本语句对应的乱序处理规则;所述乱序处理规则包括以下至少一项:目标字符的筛选方式、对所述目标字符的乱序处理方式;针对每个所述样本语句,根据所述乱序处理规则,从所述样本语句包括的各字符中筛选至少一个字符作为所述目标字符,并对所述目标字符进行乱序处理,得到所述各字符在所述样本语句中的所述第二字符位置信息。4.根据权利要求3所述的方法,其特征在于,所述基于所述样本语义数据和所述还原语义数据进行模型训练,得到训练后的语言模型,包括:基于所述样本语义数据和所述还原语义数据,调整所述乱序处理规则;所述对所述多个样本语句进行乱序处理,包括:根据调整后的乱序处理规则,对所述多个样本语句进行乱序处理。5.根据权利要求1所述的方法,其特征在于,所述多个样本语句包括:具有语义关联的多个样本关联语句,以及,与所述样本关联语句之间不具有语义关联的至少一个样本干扰语句;所述多个还原语句包括:所述样本关联语句对应的还原关联语句,以及,所述样本干扰语句对应的还原干扰语句;
所述对所述多个乱序语句进行还原处理,得到所述乱序语义数据对应的还原语义数据,包括:从所述多个还原语句中,识别出与所述样本关联语句对应的还原关联语句;和/或,识别出与所述样本干扰语句对应的还原干扰语句。6.根据权利要求1所述的方法,其特征在于,所述基于所述样本语义数据和所述还原语义数据进行模型训练,得到训练后的语言模型,包括:将所述样本语义数据和所述还原语义数据进行比对,根据比对结果确定所述待训练的语言模型的还原准确率;判断所述还原准确率是否满足预设准确条件;所述预设准确条件包括以下至少一项:所述还原准确率位于预设准确率范围内、所述还原准确率和预设准确率期望值之间的差值小于或等于预设阈值;若否,则继续对所述待训练的语言模型的模型参数进行迭代训练;若是,则停止对所述模型参数进行迭代训练,得到所述训练后的语言模型。7.根据权利要求2所述的方法,其特征在于,所述基于所述样本语义数据和所述还原语义数据进行模型训练,得到训练后的语言模型,包括:基于所述样本语义数据、所述还原语义数据和预设损失函数,计算所述干扰子模型对应的干扰损失值和/或所述辨别子模型对应的辨别损失值;根据所述干扰损失值和/或所述辨别损失值,确定是否满足...

【专利技术属性】
技术研发人员:吕乐宾蒋宁肖冰李宽丁隆耀
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1