System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本翻译、文本翻译模型的获取方法、装置、设备及介质制造方法及图纸_技高网

文本翻译、文本翻译模型的获取方法、装置、设备及介质制造方法及图纸

技术编号:40668074 阅读:6 留言:0更新日期:2024-03-18 19:03
本申请公开了一种文本翻译、文本翻译模型的获取方法、装置、设备及介质,属于计算机技术领域。该方法包括:基于第一语言的第一文本的第一文本特征,确定第二语言的各个候选文本分别对应的第一概率;获取与第一文本特征匹配的至少一个目标数据对;确定至少一个目标数据对的置信度以及匹配度;基于至少一个目标数据对的置信度以及匹配度,确定至少一个目标数据对中的各个标准翻译文本分别对应的第二概率;基于各个候选文本分别对应的第一概率以及各个标准翻译文本分别对应的第二概率,确定第一文本对应的翻译文本。通过考虑目标数据对的置信度,能够提高各个标准翻译文本分别对应的第二概率的可靠性,进而提高文本翻译的准确性。

【技术实现步骤摘要】

本申请实施例涉及计算机,特别涉及一种文本翻译、文本翻译模型的获取方法、装置、设备及介质


技术介绍

1、随着计算机技术的发展,文本翻译的应用场景越来越广泛,通过文本翻译,能够将一种语言的文本翻译成另一种语言的文本。如何提高文本翻译的准确性,是一种亟需解决的技术问题。


技术实现思路

1、本申请实施例提供了一种文本翻译、文本翻译模型的获取方法、装置、设备及存储介质,可用于提高文本翻译的准确性。所述技术方案如下:

2、一方面,本申请实施例提供了一种文本翻译方法,所述方法包括:

3、基于第一语言的第一文本的第一文本特征,确定第二语言的各个候选文本分别对应的第一概率,任一候选文本对应的第一概率用于指示所述第一文本被翻译为所述任一候选文本的概率;

4、获取与所述第一文本特征匹配的至少一个目标数据对,任一目标数据对包括一个第一语言的第二文本的第二文本特征和所述一个第二文本对应的所述第二语言的标准翻译文本;

5、确定所述至少一个目标数据对的置信度以及匹配度,任一目标数据对的置信度用于衡量所述任一目标数据对的可靠程度,所述任一目标数据对的匹配度用于指示所述任一目标数据对中的第二文本特征与所述第一文本特征的相似度;

6、基于所述至少一个目标数据对的置信度以及匹配度,确定所述至少一个目标数据对中的各个标准翻译文本分别对应的第二概率,任一标准翻译文本对应的第二概率用于指示所述第一文本被翻译为所述任一标准翻译文本的概率;

7、基于所述各个候选文本分别对应的第一概率以及所述各个标准翻译文本分别对应的第二概率,确定所述第一文本对应的翻译文本。

8、另一方面,提供了一种文本翻译模型的获取方法,所述方法包括:

9、获取第一语言的第一样本文本、所述第一样本文本对应的第二语言的第一标准翻译文本以及初始文本翻译模型;

10、调用所述初始文本翻译模型基于所述第一样本文本的第一样本文本特征确定第二语言的各个候选文本分别对应的第一样本概率,任一候选文本对应的第一样本概率用于指示所述第一样本文本被翻译为所述任一候选文本的概率;

11、获取与所述第一样本文本特征匹配的至少一个样本数据对,任一样本数据对包括一个第二样本文本的第二样本文本特征和所述一个第二样本文本对应的所述第二语言的第二标准翻译文本;

12、确定所述至少一个样本数据对的置信度以及匹配度,任一样本数据对的置信度用于衡量所述任一样本数据对的可靠程度,所述任一样本数据对的匹配度用于指示所述任一样本数据对中的第二样本文本特征与所述第一样本文本特征的相似度;

13、基于所述至少一个样本数据对的置信度以及匹配度,确定所述至少一个样本数据对中的各个第二标准翻译文本分别对应的第二样本概率,任一第二标准翻译文本对应的第二样本概率用于指示所述第一样本文本被翻译为所述任一第二标准翻译文本的概率;

14、基于所述各个候选文本分别对应的第一样本概率以及所述各个第二标准翻译文本分别对应的第二样本概率,确定所述第一样本文本对应的预测翻译文本;

15、基于所述预测翻译文本和所述第一标准翻译文本之间的差异,对所述初始文本翻译模型进行更新,得到目标文本翻译模型。

16、另一方面,提供了一种文本翻译装置,所述装置包括:

17、确定模块,用于基于所述第一语言的第一文本的第一文本特征,确定第二语言的各个候选文本分别对应的第一概率,任一候选文本对应的第一概率用于指示所述第一文本被翻译为所述任一候选文本的概率;

18、获取模块,用于获取与所述第一文本特征匹配的至少一个目标数据对,任一目标数据对包括一个第一语言的第二文本的第二文本特征和所述一个第二文本对应的所述第二语言的标准翻译文本;

19、所述确定模块,还用于确定所述至少一个目标数据对的置信度以及匹配度,任一目标数据对的置信度用于衡量所述任一目标数据对的可靠程度,所述任一目标数据对的匹配度用于指示所述任一目标数据对中的第二文本特征与所述第一文本特征的相似度;

20、所述确定模块,还用于基于所述至少一个目标数据对的置信度以及匹配度,确定所述至少一个目标数据对中的各个标准翻译文本分别对应的第二概率,任一标准翻译文本对应的第二概率用于指示所述第一文本被翻译为所述任一标准翻译文本的概率;

21、所述确定模块,还用于基于所述各个候选文本分别对应的第一概率以及所述各个标准翻译文本分别对应的第二概率,确定所述第一文本对应的翻译文本。

22、在一种可能的实现方式中,所述确定模块,用于对于所述至少一个目标数据对中的任一目标数据对,基于所述任一目标数据对中的第二文本特征确定所述各个候选文本分别对应的第三概率,任一候选文本对应的第三概率用于指示所述任一目标数据对所对应的第二文本被翻译为所述任一候选文本的概率;基于所述各个候选文本分别对应的第三概率,确定所述第二文本被翻译为所述任一目标数据对中的标准翻译文本的概率;基于所述第二文本被翻译为所述任一目标数据对中的标准翻译文本的概率,确定所述任一目标数据对的置信度。

23、在一种可能的实现方式中,所述确定模块,用于基于所述各个候选文本分别对应的第一概率,确定所述第一文本被翻译为所述任一目标数据对中的标准翻译文本的概率;基于所述第二文本被翻译为所述任一目标数据对中的标准翻译文本的概率以及所述第一文本被翻译为所述任一目标数据对中的标准翻译文本的概率,确定所述任一目标数据对的置信度。

24、在一种可能的实现方式中,所述确定模块,用于对于所述各个标准翻译文本中的任一标准翻译文本,对第一数据对的匹配度进行标准化,得到标准化后的匹配度,所述第一数据对为所述至少一个目标数据对中包括所述任一标准翻译文本的数据对;利用所述第一数据对的置信度对所述标准化后的匹配度进行修正,得到修正后的匹配度;将与所述修正后的匹配度呈正相关关系的概率作为所述任一标准翻译文本对应的第二概率。

25、在一种可能的实现方式中,所述确定模块,用于基于所述各个目标数据对的数量指标以及所述各个目标数据对的匹配度中的至少一项信息,确定超参数,任一目标数据对的数量指标为在将所述各个目标数据对按照参考顺序排列后,排列位置不偏后于所述任一目标数据对的各个目标数据对中的标准翻译文本的数量;将所述第一数据对的匹配度与所述超参数的比值,作为所述标准化后的匹配度。

26、在一种可能的实现方式中,所述确定模块,用于基于所述各个候选文本分别对应的第一概率确定第一概率分布;基于所述各个标准翻译文本分别对应的第二概率确定第二概率分布;对所述第一概率分布和所述第二概率分布进行融合,得到融合概率分布,所述融合概率分布包括各个目标文本分别对应的翻译概率,所述各个目标文本包括所述各个候选文本和所述各个标准翻译文本;将所述各个目标文本中翻译概率最大的目标文本作为所述翻译文本。

27、在一种可能的实现方式中,所述确定模块,用于确定所述第一概率分布本文档来自技高网...

【技术保护点】

1.一种文本翻译方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述至少一个目标数据对的置信度,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述第二文本被翻译为所述任一目标数据对中的标准翻译文本的概率,确定所述任一目标数据对的置信度,包括:

4.根据权利要求1-3任一所述的方法,其特征在于,所述基于所述至少一个目标数据对的置信度以及匹配度,确定所述至少一个目标数据对中的各个标准翻译文本分别对应的第二概率,包括:

5.根据权利要求4所述的方法,其特征在于,所述对第一数据对的匹配度进行标准化,得到标准化后的匹配度,包括:

6.根据权利要求1-3、5任一所述的方法,其特征在于,所述基于所述各个候选文本分别对应的第一概率以及所述各个标准翻译文本分别对应的第二概率,确定所述第一文本对应的翻译文本,包括:

7.根据权利要求6所述的方法,其特征在于,所述对所述第一概率分布和所述第二概率分布进行融合,得到融合概率分布,包括:

8.根据权利要求1-3、5任一所述的方法,其特征在于,所述基于第一语言的第一文本的第一文本特征,确定第二语言的各个候选文本分别对应的第一概率,包括:调用目标文本翻译模型基于第一语言的第一文本的第一文本特征,确定第二语言的各个候选文本分别对应的第一概率;

9.一种文本翻译模型的获取方法,其特征在于,所述方法包括:

10.根据权利要求9所述的方法,其特征在于,所述获取与所述第一样本文本特征匹配的至少一个样本数据对,包括:

11.根据权利要求10所述的方法,其特征在于,所述干扰概率根据所述初始文本翻译模型对应的更新次数确定。

12.根据权利要求10或11所述的方法,其特征在于,所述干扰概率包括第一干扰概率,所述根据干扰概率对所述至少一个初始数据对进行干扰,得到干扰后的数据对,包括:

13.根据权利要求10或11所述的方法,其特征在于,所述干扰概率包括第二干扰概率,所述根据干扰概率对所述至少一个初始数据对进行干扰,得到干扰后的数据对,包括:

14.一种文本翻译装置,其特征在于,所述装置包括:

15.一种文本翻译模型的获取装置,其特征在于,所述装置包括:

16.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述计算机设备实现如权利要求1至8任一所述的文本翻译方法,或者如权利要求9至13任一所述的文本翻译模型的获取方法。

17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现如权利要求1至8任一所述的文本翻译方法,或者如权利要求9至13任一所述的文本翻译模型的获取方法。

18.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或所述计算机指令由处理器加载并执行,以使计算机实现如权利要求1至8任一所述的文本翻译方法,或者如权利要求9至13任一所述的文本翻译模型的获取方法。

...

【技术特征摘要】

1.一种文本翻译方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述至少一个目标数据对的置信度,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述第二文本被翻译为所述任一目标数据对中的标准翻译文本的概率,确定所述任一目标数据对的置信度,包括:

4.根据权利要求1-3任一所述的方法,其特征在于,所述基于所述至少一个目标数据对的置信度以及匹配度,确定所述至少一个目标数据对中的各个标准翻译文本分别对应的第二概率,包括:

5.根据权利要求4所述的方法,其特征在于,所述对第一数据对的匹配度进行标准化,得到标准化后的匹配度,包括:

6.根据权利要求1-3、5任一所述的方法,其特征在于,所述基于所述各个候选文本分别对应的第一概率以及所述各个标准翻译文本分别对应的第二概率,确定所述第一文本对应的翻译文本,包括:

7.根据权利要求6所述的方法,其特征在于,所述对所述第一概率分布和所述第二概率分布进行融合,得到融合概率分布,包括:

8.根据权利要求1-3、5任一所述的方法,其特征在于,所述基于第一语言的第一文本的第一文本特征,确定第二语言的各个候选文本分别对应的第一概率,包括:调用目标文本翻译模型基于第一语言的第一文本的第一文本特征,确定第二语言的各个候选文本分别对应的第一概率;

9.一种文本翻译模型的获取方法,其特征在于,所述方法包括:

10.根据权利要求9所述的方法,其特征在于,所述获取与所述第一样本文本特征匹配的至少一个样本数据对,包括:...

【专利技术属性】
技术研发人员:蒋辉陆紫耀孟凡东苏劲松
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1