一种数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:33555814 阅读:13 留言:0更新日期:2022-05-26 22:52
本申请实施例公开了一种数据处理方法、装置、计算机设备以及存储介质。其中方法包括:获取样本语料集,样本语料集包括目标样本语料对,目标样本语料对包括第一样本语句和第二样本语句,第二样本语句是第一样本语句翻译后的语句;根据第一样本语句和第二样本语句中j

【技术实现步骤摘要】
一种数据处理方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能中的自然语言处理
,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术的快速发展,人工智能技术在很多领域得到了应用。其中,人工智能技术中的深度神经网络的应用也越来越广泛,比如语音识别技术,计算机视觉技术,自然语言处理技术等领域,并且深度神经网络模型在多种任务中表现出色,特别是机器翻译任务。在机器翻译中所利用的神经网络机器翻译(Neural Machine Translation,NMT)模型进行训练时,通常会出现训练数据中单词不均衡的问题,使得最后训练得到的翻译模型的性能不能达到较佳效果。

技术实现思路

[0003]本申请实施例提供了一种数据处理方法、装置、计算机设备以及存储介质,可以提高翻译模型的翻译效果,使得文本翻译更准确,提高数据处理准确性。
[0004]本申请实施例第一方面公开了一种数据处理方法,所述方法包括:
[0005]获取样本语料集,所述样本语料集包括至少一个目标样本语料对,所述目标样本语料对包括第一样本语句和第二样本语句,所述第二样本语句是所述第一样本语句翻译后的语句,所述第二样本语句中包括J个数据,J为正整数;
[0006]根据所述第一样本语句和所述第二样本语句中的前j

1个数据对所述第二样本语句中的第j个数据进行概率预测处理,得到所述第j个数据的第一预测概率,j∈[1,J];
[0007]根据所述第二样本语句中的前j

1个数据对所述第二样本语句的第j个数据进行概率预测处理,得到所述第j个数据的第二预测概率;
[0008]根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练,得到目标模型;
[0009]获取待翻译的输入语句,将所述输入语句输入所述目标模型,生成翻译后的输出语句。
[0010]本申请实施例第二方面公开了一种数据处理装置,所述装置包括:
[0011]获取单元,用于获取样本语料集,所述样本语料集包括至少一个目标样本语料对,所述目标样本语料对包括第一样本语句和第二样本语句,所述第二样本语句是所述第一样本语句翻译后的语句,所述第二样本语句中包括J个数据,J为正整数;
[0012]第一确定单元,用于根据所述第一样本语句和所述第二样本语句中的前j

1个数据对所述第二样本语句中的第j个数据进行概率预测处理,得到所述第j个数据的第一预测概率,j∈[1,J];
[0013]第二确定单元,用于根据所述第二样本语句中的前j

1个数据对所述第二样本语句的第j个数据进行概率预测处理,得到所述第j个数据的第二预测概率;
[0014]训练单元,用于根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练,得到目标模型;
[0015]翻译单元,用于获取待翻译的输入语句,将所述输入语句输入所述目标模型,生成翻译后的输出语句。
[0016]本申请实施例第三方面公开了一种计算机设备,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
[0017]本申请实施例第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
[0018]本申请实施例第五方面公开了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行上述第一方面的方法。
[0019]在本申请实施例中,可以获取包括至少一个目标样本语料对的样本语料集,其中,任一目标样本语料对可以包括第一样本语句以及该第一样本语句翻译后的第二样本语句,第二样本语句中可以包括J个数据。在获取到样本语料集之后,即可以根据第一样本语句和第二样本语句中的前j

1个数据对第二样本语句中的第j个数据进行概率预测处理,以得到第j个数据的第一预测概率;也可以根据第二样本语句中的前j

1个数据对第二样本语句的第j个数据进行概率预测处理,以得到第j个数据的第二预测概率。从而,可以根据第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练,得到目标模型,而该目标模型则可以用于根据输入语句生成翻译后的输出语句。通过实施上述方法,可以通过融合目标端上下文信息的单词评估指标动态调整模型训练过程中对于每个单词样本的关注度,从而使模型在训练中更加关注一些重要的单词,进而可用于改进线上翻译系统,可以使得文本翻译更准确,提高数据处理准确性。
附图说明
[0020]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本申请实施例提供的一种数据处理系统的架构示意图;
[0022]图2是本申请实施例提供的一种数据处理方法的流程示意图;
[0023]图3是本申请实施例提供的一种训练初始模型的结构示意图;
[0024]图4是本申请实施例提供的另一种数据处理方法的流程示意图;
[0025]图5是本申请实施例提供的另一种训练初始模型的结构示意图;
[0026]图6是本申请实施例提供的一种数据处理装置的结构示意图;
[0027]图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0028]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0029]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0030]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取样本语料集,所述样本语料集包括至少一个目标样本语料对,所述目标样本语料对包括第一样本语句和第二样本语句,所述第二样本语句是所述第一样本语句翻译后的语句,所述第二样本语句中包括J个数据,J为正整数;根据所述第一样本语句和所述第二样本语句中的前j

1个数据对所述第二样本语句中的第j个数据进行概率预测处理,得到所述第j个数据的第一预测概率,j∈[1,J];根据所述第二样本语句中的前j

1个数据对所述第二样本语句的第j个数据进行概率预测处理,得到所述第j个数据的第二预测概率;根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练,得到目标模型;获取待翻译的输入语句,将所述输入语句输入所述目标模型,生成翻译后的输出语句。2.根据权利要求1所述的方法,其特征在于,所述根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率对初始模型进行训练,得到目标模型,包括:根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率,确定所述第j个数据的训练权重;获取所述初始模型的目标损失函数,利用所述第j个数据的训练权重和所述目标损失函数,计算目标损失值;基于所述目标损失值对初始模型进行训练,得到目标模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率,确定所述第j个数据的训练权重,包括:根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率,确定所述第j个数据针对单词级别的第一训练权重;根据所述第二样本语句的j个数据中各个数据的第一预测概率和第二预测概率,确定所述第二样本语句针对句子级别的第二训练权重;根据所述第一训练权重和所述第二训练权重确定所述第j个数据的训练权重。4.根据权利要求3所述的方法,其特征在于,所述根据所述第二样本语句中第j个数据的第一预测概率和第二预测概率,确定所述第j个数据针对单词级别的第一训练权重,包括:计算所述第二样本语句中第j个数据的第一预测概率和第二预测概率之间的比值;将所述比值进行取对数处理,得到所述第j个数据针对单词级别的第一条件双语互信息;利用所述第一条件双语互信息确定所述第j个数据针对单词级别的第一训练权重。5.根据权利要求4所述的方法,其特征在于,所述根据所述第二样本语句的j个数据中各个数据的第一预测概率和第二预测概率,确定所述第二样本语句针对句子级别的第二训练权重,包括:确定所述j个数据中各...

【专利技术属性】
技术研发人员:刘宜进张松鸣孟凡东陈钰枫徐金安
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1