System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 翻译模型训练方法、翻译方法、装置、电子设备及介质制造方法及图纸_技高网

翻译模型训练方法、翻译方法、装置、电子设备及介质制造方法及图纸

技术编号:40442322 阅读:8 留言:0更新日期:2024-02-22 23:04
本申请提供了一种翻译模型训练方法、翻译方法、装置、电子设备及介质,涉及翻译模型技术领域。所述翻译模型训练方法包括:预先在翻译模型的词表中扩充常用词汇和专业词汇,基于大语言模型对所述词表中的特征向量进行优化,使用数据清洗方法对开源数据集进行清洗,过滤出质量符合要求的语料,使用所述语料对所述翻译模型进行训练。所述翻译方法包括:获取待翻译的源语言文本,将所述源语言文本输入翻译模型,进行翻译后得到目标语言文本。依据本申请实施例,不仅可以扩充翻译模型的词表,而且提升了翻译模型对专业领域翻译的准确性。

【技术实现步骤摘要】

本申请涉及翻译模型,尤其涉及一种翻译模型训练方法、翻译方法、装置、电子设备及介质


技术介绍

1、跨境电商平台通常服务于多个国家且涉及多个语种,翻译作为跨境电商平台极其重要的一环,主要用于将非目标语言的语种翻译成目标语言,便于用户理解和使用,对服务转化和用户体验有着直接的影响。

2、目前,常用的翻译模型有两种:专业翻译模型和通用llm(large language model,大语言模型)。专业翻译模型采用编码-解码(encode-decode)架构,使用大量开源数据进行模型训练,跨语言翻译的结果较好。通用llm采用decode-only架构,使用各种领域的数据集进行训练,计算复杂度小且对不同文本的翻译鲁棒性较好。但是,专业翻译模型的计算复杂度高,对专业术语翻译效果较差。而通用llm的量级非常大,资源开销大,往往很难落地实验,且在垂直领域表现不如专业翻译模型。


技术实现思路

1、本申请实施例提供一种翻译模型训练方法、翻译方法、装置、电子设备及介质,以提升翻译模型对专业领域翻译的准确性。

2、在第一方面,本申请实施例提供了一种翻译模型训练方法,包括:

3、预先在翻译模型的词表中扩充常用词汇和专业词汇;

4、基于大语言模型对所述词表中的特征向量进行优化;

5、使用数据清洗方法对开源数据集进行清洗,过滤出质量符合要求的语料;

6、使用所述语料对所述翻译模型进行训练。

7、在第二方面,本申请实施例提供了一种翻译方法,包括:

8、获取待翻译的源语言文本;

9、将所述源语言文本输入翻译模型,进行翻译后得到目标语言文本;

10、其中,所述翻译模型为使用上述翻译模型训练方法训练得到的。

11、在第三方面,本申请实施例提供了一种翻译模型训练装置,包括:

12、扩充模块,用于预先在翻译模型的词表中扩充常用词汇和专业词汇;

13、优化模块,用于基于大语言模型对所述词表中的特征向量进行优化;

14、清洗模块,用于使用数据清洗方法对开源数据集进行清洗,过滤出质量符合要求的语料;

15、训练模块,用于使用所述语料对所述翻译模型进行训练。

16、在第四方面,本申请实施例提供了一种翻译装置,包括:

17、获取模块,用于获取待翻译的源语言文本;

18、翻译模块,用于将所述源语言文本输入翻译模型,进行翻译后得到目标语言文本;

19、其中,所述翻译模型为使用上述翻译模型训练方法训练得到的。

20、在第五方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的方法。

21、在第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。

22、与现有技术相比,本申请具有如下优点:

23、通过预先在翻译模型的词表中扩充常用词汇和专业词汇,基于大语言模型对所述词表中的特征向量进行优化,使用数据清洗方法对开源数据集进行清洗,过滤出质量符合要求的语料,使用所述语料对所述翻译模型进行训练,不仅扩充了翻译模型的词表,而且提升了翻译模型对专业领域翻译的准确性。

24、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种翻译模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,基于大语言模型对所述词表中的特征向量进行优化,包括:

3.根据权利要求1所述的方法,其特征在于,使用数据清洗方法对开源数据集进行清洗,过滤出质量符合要求的语料,包括以下至少一种:

4.根据权利要求1所述的方法,其特征在于,使用所述语料对所述翻译模型进行训练,包括:

5.根据权利要求1所述的方法,其特征在于,还包括:

6.根据权利要求5所述的方法,其特征在于,所述混合去重方法包括重复惩罚算法、对比搜索算法和束搜索算法中的至少一种。

7.根据权利要求1所述的方法,其特征在于,所述扩充的专业词汇包括以下至少一种:专有品牌词汇、地理词汇、文化专有词汇、电商专有词汇或英文考试词汇。

8.一种翻译方法,其特征在于,包括:

9.根据权利要求8所述的方法,其特征在于,获取待翻译的源语言文本,包括:

10.一种翻译模型训练装置,其特征在于,所述装置包括:

11.一种翻译装置,其特征在于,包括:

12.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器在执行所述计算机程序时实现权利要求1-9中任一项所述的方法。

13.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。

...

【技术特征摘要】

1.一种翻译模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,基于大语言模型对所述词表中的特征向量进行优化,包括:

3.根据权利要求1所述的方法,其特征在于,使用数据清洗方法对开源数据集进行清洗,过滤出质量符合要求的语料,包括以下至少一种:

4.根据权利要求1所述的方法,其特征在于,使用所述语料对所述翻译模型进行训练,包括:

5.根据权利要求1所述的方法,其特征在于,还包括:

6.根据权利要求5所述的方法,其特征在于,所述混合去重方法包括重复惩罚算法、对比搜索算法和束搜索算法中的至少一种。

7.根据权利要求1所述的方法,其特征在于,所述扩充的...

【专利技术属性】
技术研发人员:陈犇陈凯迪戴煌宇
申请(专利权)人:杭州阿里巴巴海外互联网产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1