System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本翻译方法、装置、设备、存储介质及产品制造方法及图纸_技高网

一种文本翻译方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:41322569 阅读:2 留言:0更新日期:2024-05-13 15:01
本申请实施例提供了一种文本翻译方法、装置、设备、存储介质及产品。本申请实施例提供的技术方案通过文本翻译模型对待翻译文本进行分析处理得到待翻译文本对应的目标翻译文本,文本翻译模型基于通用语料数据和垂直语料数据进行无监督训练,以及基于通用指令数据和翻译指令数据进行有监督训练得到,有监督训练后文本翻译模型可得到文本理解和推理能力以及学习到不同语种类型之间的翻译模式的能力,有监督训练后的文本翻译模型更好地保持文本理解和推理能力以及具备遵循翻译指令进行翻译的能力,在低资源小语种中根据有限的平行语料数据以及通用语料数据即可训练得到可准确进行小语种翻译的文本翻译模型,有效提高对小语种的翻译质量。

【技术实现步骤摘要】

本申请实施例涉及计算机,尤其涉及一种文本翻译方法、装置、设备、存储介质及产品


技术介绍

1、机器翻译是自然语言处理领域的热门任务同时具备非常广阔的应用前景。目前的机器翻译主要基于基于大语言模型进行,大语言模型一般使用有监督学习对平行语料进行训练。例如基于自注意力机制的大语言模型能够很好地解决序列模型的问题,有效提高翻译的效果。

2、大语言模型的训练需要大量的平行语料数据,但是平行语料数据获取较为困难,对于低资源小语种而言高质量平行语料获取更为困难,导致对小语种翻译任务的大语言模型的训练效果较差,对低资源小语种的翻译质量较差。


技术实现思路

1、本申请实施例提供一种文本翻译方法、装置、设备、存储介质及产品,以解决相关技术中基于大语言模型的文本翻译在低资源小语种中的翻译质量较差的技术问题,有效提高对小语种的翻译质量。

2、在第一方面,本申请实施例提供了一种文本翻译方法,包括:

3、获取待翻译文本;

4、将所述待翻译文本发送至训练完成的文本翻译模型,通过所述文本翻译模型对所述待翻译文本进行分析处理,得到所述待翻译文本对应的目标翻译文本,所述文本翻译模型基于通用语料数据和垂直语料数据进行无监督训练,以及基于通用指令数据和翻译指令数据进行有监督训练得到,所述通用语料数据包括满足设定的信息密度要求、文本结构要求和语义正确性要求中的一种或多种的组合的文本数据,所述垂直语料数据基于第一平行语料数据进行拼接处理得到,所述通用指令数据记录有用于指示所述文本翻译模型完成设定任务的命令,所述翻译指令数据记录有用于指示所述文本翻译模型完成翻译任务的命令,所述翻译指令数据基于第二平行语料数据进行翻译指令构建得到,所述第一平行语料数据包括多个语种类型对应的翻译对,所述通用语料数据、所述垂直语料数据、所述翻译指令数据和所述通用指令数据包括多个语种类型的文本数据。

5、在第二方面,本申请实施例提供了一种文本翻译装置,包括文本获取模块和文本翻译模块,其中:

6、所述文本获取模块,配置为获取待翻译文本;

7、所述文本翻译模块,配置将所述待翻译文本发送至训练完成的文本翻译模型,通过所述文本翻译模型对所述待翻译文本进行分析处理,得到所述待翻译文本对应的目标翻译文本,所述文本翻译模型基于通用语料数据和垂直语料数据进行无监督训练,以及基于通用指令数据和翻译指令数据进行有监督训练得到,所述通用语料数据包括满足设定的信息密度要求、文本结构要求和语义正确性要求中的一种或多种的组合的文本数据,所述垂直语料数据基于第一平行语料数据进行拼接处理得到,所述通用指令数据记录有用于指示所述文本翻译模型完成设定任务的命令,所述翻译指令数据记录有用于指示所述文本翻译模型完成翻译任务的命令,所述翻译指令数据基于第二平行语料数据进行翻译指令构建得到,所述第一平行语料数据包括多个语种类型对应的翻译对,所述通用语料数据、所述垂直语料数据、所述翻译指令数据和所述通用指令数据包括多个语种类型的文本数据。

8、在第三方面,本申请实施例提供了一种文本翻译设备,包括:存储器以及一个或多个处理器;

9、所述存储器,用于存储一个或多个程序;

10、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的文本翻译方法。

11、在第四方面,本申请实施例提供了一种存储计算机可执行指令的非易失性存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的文本翻译方法。

12、在第五方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序,使得设备执行如第一方面所述的文本翻译方法。

13、本申请实施例通过文本翻译模型对待翻译文本进行分析处理得到待翻译文本对应的目标翻译文本,文本翻译模型基于通用语料数据和垂直语料数据进行无监督训练,以及基于通用指令数据和翻译指令数据进行有监督训练得到,其中,通用语料数据包括满足设定的信息密度要求、文本结构要求和语义正确性要求中的一种或多种的组合的文本数据,垂直语料数据基于第一平行语料数据进行拼接处理得到,翻译指令数据基于第二平行语料数据进行翻译指令构建得到,第一平行语料数据包括多个语种类型对应的翻译对,所述通用语料数据、所述垂直语料数据、所述翻译指令数据和所述通用指令数据包括多个语种类型的文本数据,使得进行有监督训练后文本翻译模型可得到文本理解和推理能力以及学习到不同语种类型之间的翻译模式的能力,以及使得有监督训练后的文本翻译模型更好地保持文本理解和推理能力以及具备遵循翻译指令进行翻译的能力,不需要通过大规模的平行语料数据也可实现文本翻译模型的准确翻译能力,在低资源小语种中根据有限的平行语料数据以及通用语料数据即可训练得到可准确进行小语种翻译的文本翻译模型,有效提高对小语种的翻译质量。

本文档来自技高网...

【技术保护点】

1.一种文本翻译方法,其特征在于,包括:

2.根据权利要求1所述的文本翻译方法,其特征在于,所述通用语料数据基于训练完成的文本过滤模型根据样本语料数据的文本质量分数,对所述样本语料数据进行过滤处理得到。

3.根据权利要求1所述的文本翻译方法,其特征在于,所述垂直语料数据包括基于所述第一平行语料数据的翻译对进行第一拼接处理得到的第一垂直语料数据,以及基于所述第一平行语料数据的翻译对,按照设定翻译模板进行第二拼接处理得到的第二垂直语料数据。

4.根据权利要求1所述的文本翻译方法,其特征在于,所述翻译指令数据基于第二平行语料数据的翻译对,按照设定的翻译指令结构进行构建得到,所述第二平行语料数据包括多个语种类型对应的翻译对。

5.根据权利要求4所述的文本翻译方法,其特征在于,所述第二平行语料数据基于第三平行语料数据的翻译对中源文本和目标文本的相似度,对所述第三平行语料数据进行筛选得到,所述第三平行语料数据包括多个语种类型对应的翻译对。

6.根据权利要求5所述的文本翻译方法,其特征在于,所述相似度基于所述第三平行语料数据中的源文本和目标文本之间的语义相似度进行确定。

7.根据权利要求6所述的文本翻译方法,其特征在于,所述语义相似度基于所述第三平行语料数据中的源文本的语义和目标文本的语义之间的余弦相似度进行确定,和/或所述语义相似度通过设定语言分析工具对所述第三平行语料数据中的源文本的语义和目标文本的相似度分析确定。

8.一种文本翻译装置,其特征在于,包括文本获取模块和文本翻译模块,其中:

9.一种文本翻译设备,其特征在于,包括:存储器以及一个或多个处理器;

10.一种存储计算机可执行指令的非易失性存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一项所述的文本翻译方法。

11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的文本翻译方法。

...

【技术特征摘要】

1.一种文本翻译方法,其特征在于,包括:

2.根据权利要求1所述的文本翻译方法,其特征在于,所述通用语料数据基于训练完成的文本过滤模型根据样本语料数据的文本质量分数,对所述样本语料数据进行过滤处理得到。

3.根据权利要求1所述的文本翻译方法,其特征在于,所述垂直语料数据包括基于所述第一平行语料数据的翻译对进行第一拼接处理得到的第一垂直语料数据,以及基于所述第一平行语料数据的翻译对,按照设定翻译模板进行第二拼接处理得到的第二垂直语料数据。

4.根据权利要求1所述的文本翻译方法,其特征在于,所述翻译指令数据基于第二平行语料数据的翻译对,按照设定的翻译指令结构进行构建得到,所述第二平行语料数据包括多个语种类型对应的翻译对。

5.根据权利要求4所述的文本翻译方法,其特征在于,所述第二平行语料数据基于第三平行语料数据的翻译对中源文本和目标文本的相似度,对所述第三平行语料数据进行筛选得到,所述第三平行语料数据包括多个语种类型对应的翻译对。...

【专利技术属性】
技术研发人员:张一然
申请(专利权)人:广州市网星信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1