一种数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：33555814 阅读：13 留言：0更新日期：2022-05-26 22:52

本申请实施例公开了一种数据处理方法、装置、计算机设备以及存储介质。其中方法包括：获取样本语料集，样本语料集包括目标样本语料对，目标样本语料对包括第一样本语句和第二样本语句，第二样本语句是第一样本语句翻译后的语句；根据第一样本语句和第二样本语句中j

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法、装置、计算机设备及存储介质

[0001]本申请涉及人工智能中的自然语言处理
，尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术的快速发展，人工智能技术在很多领域得到了应用。其中，人工智能技术中的深度神经网络的应用也越来越广泛，比如语音识别技术，计算机视觉技术，自然语言处理技术等领域，并且深度神经网络模型在多种任务中表现出色，特别是机器翻译任务。在机器翻译中所利用的神经网络机器翻译(Neural Machine Translation，NMT)模型进行训练时，通常会出现训练数据中单词不均衡的问题，使得最后训练得到的翻译模型的性能不能达到较佳效果。

技术实现思路

[0003]本申请实施例提供了一种数据处理方法、装置、计算机设备以及存储介质，可以提高翻译模型的翻译效果，使得文本翻译更准确，提高数据处理准确性。
[0004]本申请实施例第一方面公开了一种数据处理方法，所述方法包括：
[0005]获取样本语料集，所述样本语料集包括至少一个目标样本语料对，所述目标样本语料对包括第一样本语句和第二样本语句，所述第二样本语句是所述第一样本语句翻译后的语句，所述第二样本语句中包括J个数据，J为正整数；
[0006]根据所述第一样本语句和所述第二样本语句中的前j
‑
1个数据对所述第二样本语句中的第j个数据进行概率预测处理，得到所述第j个数据的第一预测概率，j∈[1，J]；
[0007]根据所述第二样本语句...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取样本语料集，所述样本语料集包括至少一个目标样本语料对，所述目标样本语料对包括第一样本语句和第二样本语句，所述第二样本语句是所述第一样本语句翻译后的语句，所述第二样本语句中包括J个数据，J为正整数；根据所述第一样本语句和所述第二样本语句中的前j
‑
1个数据对所述第二样本语句中的第j个数据进行概率预测处理，得到所述第j个数据的第一预测概率，j∈[1，J]；根据所述第二样本语句中的前j
‑
1个数据对所述第二样本语句的第j个数据进行概率预测处理，得到所述第j个数据的第二预测概率；根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练，得到目标模型；获取待翻译的输入语句，将所述输入语句输入所述目标模型，生成翻译后的输出语句。2.根据权利要求1所述的方法，其特征在于，所述根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练，得到目标模型，包括：根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率，确定所述第j个数据的训练权重；获取所述初始模型的目标损失函数，利用所述第j个数据的训练权重和所述目标损失函数，计算目标损失值；基于所述目标损失值对初始模型进行训练，得到目标模型。3.根据权利要求2所述的方法，其特征在于，所述根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率，确定所述第j个数据的训练权重，包括：根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率，确定所述第j个数据针对单词级别的第一训练权重；根据所述第二样本语句的j个数据中各个数据的第一预测概率和第二预测概率，确定所述第二样本语句针对句子级别的第二训练权重；根据所述第一训练权重和所述第二训练权重确定所述第j个数据的训练权重。4.根据权利要求3所述的方法，其特征在于，所述根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率，确定所述第j个数据针对单词级别的第一训练权重，包括：计算所述第二样本语句中第j个数据的第一预测概率和第二预测概率之间的比值；将所述比值进行取对数处理，得到所述第j个数据针对单词级别的第一条件双语互信息；利用所述第一条件双语互信息确定所述第j个数据针对单词级别的第一训练权重。5.根据权利要求4所述的方法，其特征在于，所述根据所述第二样本语句的j个数据中各个数据的第一预测概率和第二预测概率，确定所述第二样本语句针对句子级别的第二训练权重，包括：确定所述j个数据中各...

【专利技术属性】
技术研发人员：刘宜进，张松鸣，孟凡东，陈钰枫，徐金安，
申请(专利权)人：北京交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人