语言模型训练方法及装置、目标翻译错误检测方法及装置制造方法及图纸

技术编号：33795001 阅读：101 留言：0更新日期：2022-06-12 14:56

本公开提供了一种语言模型训练方法及装置、目标翻译错误检测方法及装置，涉及人工智能技术领域，尤其涉及自然语言处理、机器翻译领域。实现方案为：获取第一样本数据集；基于第一样本数据集中的多个样本数据，执行下述训练过程：基于语言模型，对多个样本数据中的每个样本数据中的每个样本对进行掩码预测，以获取相应于该样本对的预测结果；基于多个样本数据中的每个样本数据中的每个样本对相应的预测结果，计算掩码预测损失函数和对比学习损失函数；基于掩码预测损失函数和对比学习损失函数，计算综合损失函数；以及基于综合损失函数调整语言模型的至少一个参数。调整语言模型的至少一个参数。调整语言模型的至少一个参数。

全部详细技术资料下载

【技术实现步骤摘要】
语言模型训练方法及装置、目标翻译错误检测方法及装置

[0001]本公开涉及人工智能
，尤其涉及自然语言处理、机器翻译领域，具体涉及一种语言模型的训练方法、一种计算机执行的目标翻译错误的检测方法、一种机器翻译模型的训练方法、一种语言模型的训练装置、一种计算机执行的目标翻译错误的检测装置、一种机器翻译模型的训练装置、电子设备和计算机可读存储介质。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]机器翻译，又称为自动翻译，是指利用计算机将一种自然语言（源语言）转换为另一种自然语言（目标语言）的过程。机器翻译具有重要的实用价值。目前，基于数据驱动的神经机器翻译技术仍然存在许多问题，当前技术条件下还没有达到理想水平，机器翻译系统仍然会输出错误的翻译结果。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种语言模型的训练方法、一种计...

【技术保护点】

【技术特征摘要】
1.一种语言模型的训练方法，其特征在于，所述方法包括：获取第一样本数据集，其中，所述第一样本数据集包括多个样本数据，所述多个样本数据中的每个样本数据包括第一样本对和基于所述第一样本对生成的至少一个第二样本对，所述第一样本对包括第一源语言文本和与所述第一源语言文本相对应的第一目标语言文本，所述至少一个第二样本对中的每个第二样本对包括相应的第二源语言文本和第二目标语言文本，并且所述每个第二样本对分别通过对所述第一样本对中的第一源语言文本或第一目标语言文本进行不同的改变获取；基于所述第一样本数据集中的多个样本数据，执行下述训练过程：基于所述语言模型，对所述多个样本数据中的每个样本数据中的每个样本对进行掩码预测，以获取相应于该样本对的预测结果；基于所述多个样本数据中的每个样本数据中的每个样本对相应的预测结果，计算掩码预测损失函数和对比学习损失函数；基于所述掩码预测损失函数和所述对比学习损失函数，计算综合损失函数；以及基于所述综合损失函数调整所述语言模型的至少一个参数。2.根据权利要求1所述的训练方法，其中，所述基于所述掩码预测损失函数和所述对比学习损失函数，计算综合损失函数包括：基于所述掩码预测损失函数对应的第一权重、所述对比学习损失函数对应的第二权重、所述掩码预测损失函数和所述对比学习损失函数，计算所述综合损失函数。3.根据权利要求2所述的训练方法，其中，所述第一样本数据集包括多个样本数据子集，所述多个样本数据子集中的每个样本数据子集包括多个样本数据，所述方法还包括：依次基于所述多个样本数据子集中的每个样本数据子集，分别执行所述训练过程，并且其中，所述计算所述综合损失函数包括：根据当前训练过程所应用的样本数据子集在所述多个样本数据子集中的次序，调整所述第一权重和所述第二权重，其中，调整后的第一权重与调整后的第二权重的总和等于调整前的所述第一权重和所述第二权重的总和；以及基于调整后的第一权重、调整后的第二权重、所述掩码预测损失函数和所述对比学习损失函数，计算当前训练过程相应的综合损失函数。4.根据权利要求1
‑
3中任一项所述的训练方法，其中，所述获取第一样本数据集包括：获取多个原始样本对，以作为所述第一样本数据集中的多个样本数据相应的多个第一样本对；获取所述多个第一样本对中的每个第一样本对对应的至少一个第二样本对，其中，所述至少一个第二样本对通过执行下述操作中的至少一项获取：随机删除该第一样本对中的第一目标语言文本对应的多个分词中的至少一个分词，以获取该第一样本对对应的一个第二样本对中的第二目标语言文本，并且，该第二样本对中的第二源语言文本与该第一样本对中的第一源语言文本相同；响应于该第一样本对中的第一目标语言文本包括多个子句，随机删除所述多个子句中的至少一个子句，以获取该第一样本对对应的一个第二样本对中的第二目标语言文本，并且，该第二样本对中的第二源语言文本与该第一样本对中的第一源语言文本相同；以及
在该第一样本对中的第一源语言文本中的多个分词之间随机插入至少一个第一插入词，以获取该第一样本对对应的一个第二样本对中的第二源语言文本，并且，该第二样本对中的第二目标语言文本与该第一样本对中的第一目标语言文本相同。5.根据权利要求4所述的训练方法，其中，所述在该第一样本对中的第一源语言文本中的多个分词之间随机插入至少一个第一插入词包括：在该第一样本对中的第一源语言文本中的多个分词中的相邻分词之间插入至少一个第三掩码标签；通过将插入所述至少一个第三掩码标签后的第一源语言文本输入预训练掩码语言模型，获取所述至少一个第三掩码标签对应的所述至少一个第一插入词，以获取该第一样本对对应的一个第二样本对中的第二源语言文本。6.根据权利要求1
‑
3中任一项所述的训练方法，其中，所述获取第一样本数据集包括：获取多个原始样本对，以作为所述第一样本数据集中的多个样本数据相应的多个第一样本对；获取所述多个第一样本对中的每个第一样本对对应的至少一个第二样本对，其中，所述至少一个第二样本对通过执行下述操作中的至少一项获取：随机删除该第一样本对中的第一源语言文本对应的多个分词中的至少一个分词，以获取该第一样本对对应的一个第二样本对中的第二源语言文本，并且，该第二样本对中的第二目标语言文本与该第一样本对中的第一目标语言文本相同；响应于该第一样本对中的第一源语言文本包括多个子句，随机删除所述多个子句中的至少一个子句，以获取该第一样本对对应的一个第二样本对中的第二源语言文本，并且，该第二样本对中的第二目标语言文本与该第一样本对中的第一目标语言文本相同；以及在该第一样本对中的第一目标语言文本中的多个分词之间随机插入至少一个第二插入词，以获取该第一样本对对应的一个第二样本对中的第二目标语言文本，并且，...

【专利技术属性】
技术研发人员：张传强，张睿卿，何中军，李芝，吴华，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人