翻译模型训练方法及装置制造方法及图纸

技术编号：38011730 阅读：8 留言：0更新日期：2023-06-30 10:33

本申请提供翻译模型训练方法及装置，其中所述翻译模型训练方法包括：确定初始语料集合中每个初始语料对的语料对分值，其中，初始语料对由对应源语种和对应目标语种的语句组成；根据所述语料对分值在所述初始语料集合中，筛选出关联所述源语种和所述目标语种的初始语料对组成中间语料集合；在所述中间语料集合中选择满足预设平行关系的中间语料对组成目标语料集合，并在所述目标语料集合中确定目标语料对；将所述目标语料对添加至语料样本集，并利用所述语料样本集对初始翻译模型进行训练；实现对训练翻译模型的语料进行筛选，以获得翻译关系更强的语料，以此为基础可以训练出翻译精度更高的翻译模型。精度更高的翻译模型。精度更高的翻译模型。

全部详细技术资料下载

【技术实现步骤摘要】
翻译模型训练方法及装置

[0001]本申请涉及机器学习
，特别涉及翻译模型训练方法及装置。

技术介绍

[0002]人工智能(artificial intelligence；AI)是指已工程化(即设计并制造)的系统感知环境的能力，以及获取、处理、应用和表示知识的能力。人工智能深度学习框架实现了对算法的封装。随着人工智能的发展，各种深度学习框架不断的涌现；TensorFlow、PyTorch等通用型深度学习框架，应用于自然语言处理、计算机视觉、语音处理等领域，以及机器翻译、智慧金融、智能医疗、自动驾驶等行业。是现今应用较为广泛的一种深度学习框架。而自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，涉及的领域较多，主要包括机器翻译(是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程)、机器阅读理解(是指给一段context描述，然后对应的给一个query，机器通过阅读context后，给出对应query的答案)、问答系统(Question AnsweringSystem,QA，是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题)、主题/关键词提取等。
[0003]在机器翻译场景下，为了能够提高翻译模型的翻译精度，需要在模型训练阶段采集大量的平行语料对翻译模型进行训练，而平行语料的质量和数量是确保翻译模型预测精度的基础。现有技术中，平行语料的筛选大多数基于边距的评分方法完成，虽然能...

【技术保护点】

【技术特征摘要】
1.一种翻译模型训练方法，其特征在于，包括：确定初始语料集合中每个初始语料对的语料对分值，其中，初始语料对由对应源语种和对应目标语种的语句组成；根据所述语料对分值在所述初始语料集合中，筛选出关联所述源语种和所述目标语种的初始语料对组成中间语料集合；在所述中间语料集合中选择满足预设平行关系的中间语料对组成目标语料集合，并在所述目标语料集合中确定目标语料对；将所述目标语料对添加至语料样本集，并利用所述语料样本集对初始翻译模型进行训练。2.根据权利要求1所述的方法，其特征在于，所述确定初始语料集合中每个初始语料对的语料对分值步骤执行之前，还包括：获取对应所述源语种的第一语料；对所述第一语料进行翻译处理，获得对应所述目标语种的第二语料；基于所述第一语料和所述第二语料构建扩增语料对，并将所述扩增语料对添加至预设语料集合，获得所述初始语料集合。3.根据权利要求1所述的方法，其特征在于，所述初始语料集合中任意一个初始语料对的语料对分值的确定，包括：在所述初始语料对中确定对应所述源语种的源语种语句，以及对应所述目标语种的目标语种语句；选择对应所述源语种的语句识别算法对所述源语种语句进行识别处理，根据识别处理结果确定所述源语种语句对应的源语种分值；选择对应所述目标语种的语句识别算法对所述目标语种语句进行识别处理，根据识别处理结果确定所述目标语种语句对应的目标语种分值；根据所述源语种分值和所述目标语种分值，确定所述初始语料对的语料对分值。4.根据权利要求1所述的方法，其特征在于，所述在所述中间语料集合中选择满足预设平行关系的中间语料对组成目标语料集合，包括：将所述中间语料集合中包含的中间语料对，依次输入至预训练的语言模型进行处理，获得每个中间语料对的对齐分值；按照所述对齐分值对所述中间语料集合中包含的中间语料对进行排序，根据排序结果选择设定数量的中间语料对，作为满足预设平行关系的中间语料对；根据满足预设平行关系的中间语料对组成所述目标语料集合；其中，所述预训练的语言模型用于在词单元对齐维度，预测每个中间语料对的对齐分值。5.根据权利要求4所述的方法，其特征在于，所述预训练的语言模型，通过如下方式训练：获取关联目标领域的样本语料集合；在所述样本语料集合中确定第一样本语料对和第二样本语料对；通过对所述第二样本语料对添加噪音处理，获得负样本语料对，并将所述第一样本语料对作为正样本语料对；
基于所述负样本语料对和所述正样本语料对，对初始语言模型进行训练，直至获得满足训练停止条件的所述预训练的语言模型。6.根据权利要求5所述的方法，其特征在于，所述通过对所述第二样本语料对添加噪音处理，获得负样本语料对，包括：对所述第二样本语料对中包含的第一样本语句和第二样本语句，分别进行词单元删除处理，根据词单元删除处理结果生成所述负样本语料对；和/或，对所述第二样本语料对中包含的第一样本语句和第二样本语句，分别进行词单元顺序调整处理，根据词单元顺序调整处理结果生成所述负样本语料对；和/或，对所述第二样本语料对中包含的第一样本语句和第二样本语句，分别进行句单元替换处理，根据句单元替换处理结果生成所述负样本语料对。7.根据权利要求1所述的方法，其特征在于，所述在所述目标...

【专利技术属性】
技术研发人员：贾承勋，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人