语言模型训练方法及装置、目标翻译错误检测方法及装置制造方法及图纸

技术编号:33795001 阅读:101 留言:0更新日期:2022-06-12 14:56
本公开提供了一种语言模型训练方法及装置、目标翻译错误检测方法及装置,涉及人工智能技术领域,尤其涉及自然语言处理、机器翻译领域。实现方案为:获取第一样本数据集;基于第一样本数据集中的多个样本数据,执行下述训练过程:基于语言模型,对多个样本数据中的每个样本数据中的每个样本对进行掩码预测,以获取相应于该样本对的预测结果;基于多个样本数据中的每个样本数据中的每个样本对相应的预测结果,计算掩码预测损失函数和对比学习损失函数;基于掩码预测损失函数和对比学习损失函数,计算综合损失函数;以及基于综合损失函数调整语言模型的至少一个参数。调整语言模型的至少一个参数。调整语言模型的至少一个参数。

【技术实现步骤摘要】
语言模型训练方法及装置、目标翻译错误检测方法及装置


[0001]本公开涉及人工智能
,尤其涉及自然语言处理、机器翻译领域,具体涉及一种语言模型的训练方法、一种计算机执行的目标翻译错误的检测方法、一种机器翻译模型的训练方法、一种语言模型的训练装置、一种计算机执行的目标翻译错误的检测装置、一种机器翻译模型的训练装置、电子设备和计算机可读存储介质。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]机器翻译,又称为自动翻译,是指利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。机器翻译具有重要的实用价值。目前,基于数据驱动的神经机器翻译技术仍然存在许多问题,当前技术条件下还没有达到理想水平,机器翻译系统仍然会输出错误的翻译结果。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种语言模型的训练方法、一种计算机执行的目标翻译错误的检测方法、一种机器翻译模型的训练方法、一种语言模型的训练装置、一种计算机执行的目标翻译错误的检测装置、一种机器翻译模型的训练装置、电子设备和计算机可读存储介质。
[0006]根据本公开的一方面,提供了一种语言模型的训练方法,包括:获取第一样本数据集,其中,第一样本数据集包括多个样本数据,多个样本数据中的每个样本数据包括第一样本对和基于第一样本对生成的至少一个第二样本对,第一样本对包括第一源语言文本和与第一源语言文本相对应的第一目标语言文本,至少一个第二样本对中的每个第二样本对包括相应的第二源语言文本和第二目标语言文本,并且每个第二样本对分别通过对第一样本对中的第一源语言文本或第一目标语言文本进行不同的改变获取;基于第一样本数据集中的多个样本数据,执行下述训练过程:基于语言模型,对多个样本数据中的每个样本数据中的每个样本对进行掩码预测,以获取相应于该样本对的预测结果;基于多个样本数据中的每个样本数据中的每个样本对相应的预测结果,计算掩码预测损失函数和对比学习损失函数;基于掩码预测损失函数和对比学习损失函数,计算综合损失函数;以及基于综合损失函数调整语言模型的至少一个参数。
[0007]根据本公开的另一方面,提供了一种计算机执行的目标翻译错误的检测方法,包
括:获取源语言文本和待检测的目标语言文本;将源语言文本和待检测的目标语言文本输入检测模型,以确定待检测的目标语言文本是否存在目标翻译错误,其中,检测模型基于本公开的语言模型训练方法训练获得。
[0008]根据本公开的另一方面,提供了一种机器翻译模型的训练方法,其中,机器翻译模型包括编码网络和解码网络,所述方法包括:获取用于训练机器翻译模型的样本数据集;基于预训练的语言模型的至少一个参数,初始化编码网络的至少一个参数和解码网络的至少一个参数,其中,预训练的语言模型基于本公开的语言模型训练方法训练获得;基于样本数据集,训练机器翻译模型。
[0009]根据本公开的另一方面,提供了一种语言模型的训练装置,包括:第一获取单元,被配置为获取第一样本数据集,其中,第一样本数据集包括多个样本数据,多个样本数据中的每个样本数据包括第一样本对和基于第一样本对生成的至少一个第二样本对,第一样本对包括第一源语言文本和与第一源语言文本相对应的第一目标语言文本,至少一个第二样本对中的每个第二样本对包括相应的第二源语言文本和第二目标语言文本,并且每个第二样本对分别通过对第一样本对中的第一源语言文本或第一目标语言文本进行不同的改变获取;执行单元,被配置为基于第一样本数据集中的多个样本数据,执行下述子单元的操作:预测子单元,被配置为基于语言模型,对多个样本数据中的每个样本数据中的每个样本对进行掩码预测,以获取相应于该样本对的预测结果;第一计算子单元,被配置为基于多个样本数据中的每个样本数据中的每个样本对相应的预测结果,计算掩码预测损失函数和对比学习损失函数;第二计算子单元,被配置为基于掩码预测损失函数和对比学习损失函数,计算综合损失函数;以及调整子单元,被配置为基于综合损失函数调整语言模型的至少一个参数。
[0010]根据本公开的另一方面,提供了一种计算机执行的目标翻译错误的检测装置,包括:第二获取单元,被配置为获取源语言文本和待检测的目标语言文本;输入单元,被配置为将源语言文本和待检测的目标语言文本输入检测模型,以确定待检测的目标语言文本是否存在目标翻译错误,其中,检测模型基于本公开的语言模型训练方法训练获得。
[0011]根据本公开的另一方面,提供了一种机器翻译模型的训练装置,其中,机器翻译模型包括编码网络和解码网络,所述装置包括:第三获取单元,被配置为获取用于训练机器翻译模型的样本数据集;初始化单元,被配置为基于预训练的语言模型的至少一个参数,初始化编码网络的至少一个参数和解码网络的至少一个参数,其中,预训练的语言模型基于本公开的语言模型训练方法训练获得;训练单元,被配置为基于样本数据集,训练机器翻译模型。
[0012]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开的语言模型训练方法、计算机执行的目标翻译错误的检测方法或机器翻译模型的训练方法。
[0013]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开的语言模型训练方法、计算机执行的目标翻译错误的检测方法或机器翻译模型的训练方法。
[0014]根据本公开的一个或多个实施例,通过第一样本对(正样本)和第二样本对(负样
本)对语言模型进行基于掩码预测任务和对比学习任务相结合的预训练,能够在进一步优化语言模型对语句的编码表达的同时,使模型具备区分正负样本的能力。
[0015]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0016]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0017]图1示出了根据本公开的实施例的可以在其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型的训练方法,其特征在于,所述方法包括:获取第一样本数据集,其中,所述第一样本数据集包括多个样本数据,所述多个样本数据中的每个样本数据包括第一样本对和基于所述第一样本对生成的至少一个第二样本对,所述第一样本对包括第一源语言文本和与所述第一源语言文本相对应的第一目标语言文本,所述至少一个第二样本对中的每个第二样本对包括相应的第二源语言文本和第二目标语言文本,并且所述每个第二样本对分别通过对所述第一样本对中的第一源语言文本或第一目标语言文本进行不同的改变获取;基于所述第一样本数据集中的多个样本数据,执行下述训练过程:基于所述语言模型,对所述多个样本数据中的每个样本数据中的每个样本对进行掩码预测,以获取相应于该样本对的预测结果;基于所述多个样本数据中的每个样本数据中的每个样本对相应的预测结果,计算掩码预测损失函数和对比学习损失函数;基于所述掩码预测损失函数和所述对比学习损失函数,计算综合损失函数;以及基于所述综合损失函数调整所述语言模型的至少一个参数。2.根据权利要求1所述的训练方法,其中,所述基于所述掩码预测损失函数和所述对比学习损失函数,计算综合损失函数包括:基于所述掩码预测损失函数对应的第一权重、所述对比学习损失函数对应的第二权重、所述掩码预测损失函数和所述对比学习损失函数,计算所述综合损失函数。3.根据权利要求2所述的训练方法,其中,所述第一样本数据集包括多个样本数据子集,所述多个样本数据子集中的每个样本数据子集包括多个样本数据,所述方法还包括:依次基于所述多个样本数据子集中的每个样本数据子集,分别执行所述训练过程,并且其中,所述计算所述综合损失函数包括:根据当前训练过程所应用的样本数据子集在所述多个样本数据子集中的次序,调整所述第一权重和所述第二权重,其中,调整后的第一权重与调整后的第二权重的总和等于调整前的所述第一权重和所述第二权重的总和;以及基于调整后的第一权重、调整后的第二权重、所述掩码预测损失函数和所述对比学习损失函数,计算当前训练过程相应的综合损失函数。4.根据权利要求1

3中任一项所述的训练方法,其中,所述获取第一样本数据集包括:获取多个原始样本对,以作为所述第一样本数据集中的多个样本数据相应的多个第一样本对;获取所述多个第一样本对中的每个第一样本对对应的至少一个第二样本对,其中,所述至少一个第二样本对通过执行下述操作中的至少一项获取:随机删除该第一样本对中的第一目标语言文本对应的多个分词中的至少一个分词,以获取该第一样本对对应的一个第二样本对中的第二目标语言文本,并且,该第二样本对中的第二源语言文本与该第一样本对中的第一源语言文本相同;响应于该第一样本对中的第一目标语言文本包括多个子句,随机删除所述多个子句中的至少一个子句,以获取该第一样本对对应的一个第二样本对中的第二目标语言文本,并且,该第二样本对中的第二源语言文本与该第一样本对中的第一源语言文本相同;以及
在该第一样本对中的第一源语言文本中的多个分词之间随机插入至少一个第一插入词,以获取该第一样本对对应的一个第二样本对中的第二源语言文本,并且,该第二样本对中的第二目标语言文本与该第一样本对中的第一目标语言文本相同。5.根据权利要求4所述的训练方法,其中,所述在该第一样本对中的第一源语言文本中的多个分词之间随机插入至少一个第一插入词包括:在该第一样本对中的第一源语言文本中的多个分词中的相邻分词之间插入至少一个第三掩码标签;通过将插入所述至少一个第三掩码标签后的第一源语言文本输入预训练掩码语言模型,获取所述至少一个第三掩码标签对应的所述至少一个第一插入词,以获取该第一样本对对应的一个第二样本对中的第二源语言文本。6.根据权利要求1

3中任一项所述的训练方法,其中,所述获取第一样本数据集包括:获取多个原始样本对,以作为所述第一样本数据集中的多个样本数据相应的多个第一样本对;获取所述多个第一样本对中的每个第一样本对对应的至少一个第二样本对,其中,所述至少一个第二样本对通过执行下述操作中的至少一项获取:随机删除该第一样本对中的第一源语言文本对应的多个分词中的至少一个分词,以获取该第一样本对对应的一个第二样本对中的第二源语言文本,并且,该第二样本对中的第二目标语言文本与该第一样本对中的第一目标语言文本相同;响应于该第一样本对中的第一源语言文本包括多个子句,随机删除所述多个子句中的至少一个子句,以获取该第一样本对对应的一个第二样本对中的第二源语言文本,并且,该第二样本对中的第二目标语言文本与该第一样本对中的第一目标语言文本相同;以及在该第一样本对中的第一目标语言文本中的多个分词之间随机插入至少一个第二插入词,以获取该第一样本对对应的一个第二样本对中的第二目标语言文本,并且,...

【专利技术属性】
技术研发人员:张传强张睿卿何中军李芝吴华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1