【技术实现步骤摘要】
本专利技术属于机器翻译,具体地说,是涉及一种低资源语种的机器翻译模型训练方法、装置及介质。
技术介绍
1、全球一共有7000多种语种,而目前公开的机翻引擎只覆盖了其中几百种,剩下的绝大部分低资源语种虽然有不少的翻译需求,但是却没有可使用的机翻引擎,而训练低资源/零资源机器翻译引擎主要有以下几个难点:一是训练语料缺乏,一些低资源语种,如僧迦罗语,公开的单语数据有限,双语几乎没有;二是很多低资源语种不是单一的语种,其中混杂了大量的其他语种,比如俾路支语是阿拉伯地区的语言,包括了乌尔都语、波斯语、普什图语多种语种混杂;三现有的低资源机翻模型大多采用基于迁移学习全变量微调的方式,语言跨度大,微调成本高。
技术实现思路
1、本专利技术的目的在于提供一种低资源语种的机器翻译模型训练方法,以解决现有技术所存在的技术问题。
2、为了实现上述目的,本专利技术采取的技术方案如下:
3、一种低资源语种的机器翻译模型训练方法,包括以下步骤:
4、步骤s1:构建基于双语词典的伪平
...
【技术保护点】
1.一种低资源语种的机器翻译模型训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的低资源语种的机器翻译模型训练方法,其特征在于,还包括在第一次模型微调过程中,使用参数控制器用于控制不同语种下模型参数位置和数量的步骤:
3.根据权利要求2所述的低资源语种的机器翻译模型训练方法,其特征在于,在模型微调过程中,使用正则化来保证微调的结果。
4.根据权利要求3所述的低资源语种的机器翻译模型训练方法,其特征在于,所述步骤S1的具体方法如下:
5.根据权利要求4所述的低资源语种的机器翻译模型训练方法,其特征在于,所述(2
...【技术特征摘要】
1.一种低资源语种的机器翻译模型训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的低资源语种的机器翻译模型训练方法,其特征在于,还包括在第一次模型微调过程中,使用参数控制器用于控制不同语种下模型参数位置和数量的步骤:
3.根据权利要求2所述的低资源语种的机器翻译模型训练方法,其特征在于,在模型微调过程中,使用正则化来保证微调的结果。
4.根据权利要求3所述的低资源语种的机器翻译模型训练方法,其特征在于,所述步骤s1的具体方法如下:
5.根据权利要求4所述的低资源语种的机器翻译模型训练方法,其特征在于,所述(21)单词级别的语种混杂数据增强,包括:
6.根据权...
【专利技术属性】
技术研发人员:朱宪超,骆敏,霍展羽,李晶,
申请(专利权)人:四川语言桥信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。