一种基于元学习算法的稀缺资源领域英汉机器翻译方法技术

技术编号:39394787 阅读:10 留言:0更新日期:2023-11-19 15:49
本发明专利技术提出了一种基于元学习算法的稀缺资源领域英汉机器翻译方法,包括:建设语料库,包括千万级别通用领域双语平行语料

【技术实现步骤摘要】
一种基于元学习算法的稀缺资源领域英汉机器翻译方法


[0001]本专利技术涉及一种机器翻译方法,特别是一种基于元学习算法的稀缺资源领域英汉机器翻译方法


技术介绍

[0002]随着全球化的发展,各国交流沟通愈发繁多,在大语种上的机器翻译的研究早已如日中天,基于稀缺资源领域的翻译也相继展开

主流方法包括基于中间语言桥接的方法

仅基于单语数据的方法

基于半监督联合训练的方法和基于元学习的方法等

[0003]元学习
(Meta Learning)
也叫“学会学习”(Learning to learn)
,它是要“学会如何学习”,即利用以往的知识经验来指导新任务的学习,具有学会学习的能力

当前的深度学习大部分情况下只能从头开始训练

使用
Finetune
来学习新任务,效果往往不好,而元学习就是研究让机器学会如何去学习,从不同任务中学习一个通用的学习方法论,来实现对未知新任务的泛化

[0004]当前机器翻译模型大部分情况下只能从头开始训练,使用模型微调
(Finetune)
来学习新任务,在稀缺资源领域效果往往不好

本专利技术通过泛化策略对特定稀缺资源领域语料进行泛化并标记,充分利用稀缺资源领域的语法结构

术语词典等

同时将翻译问题建构为元学习问题,先使通用领域下千万级别双语平行语料库训练出了好的初始参数

再以初始参数

通用策略模型为基础,训练特定稀缺资源领域的翻译

在此基础上进行进一步优化元学习初始参数模型,最终得到的模型可以很好地提升稀缺资源语种的翻译模型的性能


技术实现思路

[0005]专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于元学习算法的稀缺资源领域英汉机器翻译方法

[0006]为了解决上述技术问题,本专利技术公开了一种基于元学习算法的稀缺资源领域英汉机器翻译方法,包括如下步骤:
[0007]步骤
1、
建设语料库;将所述语料库划分为测试集和训练集;
[0008]所述的语料库包括:收录不同主题的通用领域下双语平行语料库以及特定稀缺资源领域下的语料库

[0009]步骤
2、
使用语料库中的通用领域下双语平行语料库,训练基于序列到序列框架的神经机器翻译模型,得到通用策略模型;
[0010]所述的基于序列到序列框架的神经机器翻译模型,包括编码器和解码器,编码器将输入内容映射到一个连续向量表示,解码器将向量表示映射到输出翻译内容

[0011]步骤
3、
通过泛化标记策略优化调整通用策略模型的参数:采用关键词及关键短语的特定修正方法

特殊结构的泛化方法以及命名实体识别方法三种泛化标记策略对特定稀缺资源领域下的语料库中的语料进行泛化和语言学标记,得到标记词典;
[0012]使用通用策略模型对测试集进行翻译,并结合翻译结果和标记词典对所述通用策
略模型进行优化调整;
[0013]所述的通过泛化标记策略优化调整通用策略模型的参数,即采用泛化标记策略对特定稀缺资源领域下的语料库中的语料进行泛化和语言学标记,得到标记词典;
[0014]使用通用策略模型对测试集进行翻译,并结合翻译结果和标记词典对所述通用策略模型进行优化调整

[0015]所述泛化标记策略,至少包括:关键词及关键短语的特定修正方法

特殊结构的泛化方法以及命名实体识别方法中的任意一种或任意组合

[0016]所述的关键词及关键短语的特定修正方法,包括:使用通用策略模型翻译特定稀缺资源领域下的语料库,将翻译结果和预期翻译结果进行比对,对不一致的关键词及关键短语进一步标签标记和修正

[0017]所述的特殊结构的泛化方法,包括:对特定稀缺资源领域下语料库中的特殊结构进行标签标记和泛化

[0018]所述的命名实体识别方法,包括:采用命名实体识别技术对特定稀缺资源领域下语料库中的特定实体进行标签标记和泛化

[0019]所述的通过泛化标记策略优化调整通用策略模型的参数,具体包括如下步骤;
[0020]步骤3‑
1、
通过泛化标记策略,使用泛化标签符号对特定稀缺资源领域下的语料库进行标记和泛化,同时将泛化标签符号的顺序记录在标记词典中;
[0021]步骤3‑
2、
使用通用策略模型翻译特定稀缺资源领域下的语料库,得到包含泛化标签符号的翻译结果,依据标记词典恢复翻译结果中泛化标记符号对应位置,得到通用策略模型翻译结果;
[0022]步骤3‑
3、
使用相应参考译文对翻译结果进行评测;
[0023]步骤3‑
4、
根据评测结果优化调整通用策略模型的参数

[0024]步骤
4、
将所述机器翻译过程建构为元学习问题,使用特定稀缺资源领域下的语料库对所述通用策略模型反复训练并优化,得到优化后的通用策略模型;
[0025]所述的对所述通用策略模型反复训练并优化,包括如下步骤:
[0026]步骤4‑
1、
将元学习算法用于稀缺资源领域神经机器翻译过程中,把翻译问题建构为元学习问题;
[0027]步骤4‑
2、
定义元目标函数
L(
θ
)
,具体如下:
[0028][0029]其中,
k

U{(1,

,K)}
指第
k
个元训练轮次,
U
表示
K
次训练的集合,训练集
D
T
,测试集
D

T
遵循在任务
T
上数据的均匀分布,
θ
表示元学习模型中的参数,
E
k
表示第
k
轮次的期望,表示训练示例子集和测试示例子集的期望,表示特定于语言的学习过程公式化,
p(Y|X)
表示后验分布;
[0030]步骤4‑
3、
使用步骤1中所述训练集中的通用领域下双语平行语料,通过随机梯度下降方法逼近最大化元目标函数,训练得到通用领域下最优的初始参数
θ0;
[0031]步骤4‑
4、
对稀缺资源领域下语料库进行训练;通过随机梯度下降算法不断优化调整当前参数,得到元学习参数模型的最终参数
θ

[0032]步骤
5、
使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于元学习算法的稀缺资源领域英汉机器翻译方法,其特征在于,包括如下步骤:步骤
1、
建设语料库;将所述语料库划分为测试集和训练集;步骤
2、
使用语料库中的通用领域下双语平行语料库,训练基于序列到序列框架的神经机器翻译模型,得到通用策略模型;步骤
3、
通过泛化标记策略优化调整通用策略模型的参数:采用关键词及关键短语的特定修正方法

特殊结构的泛化方法以及命名实体识别方法三种泛化标记策略对特定稀缺资源领域下的语料库中的语料进行泛化和语言学标记,得到标记词典;使用通用策略模型对测试集进行翻译,并结合翻译结果和标记词典对所述通用策略模型进行优化调整;步骤
4、
将所述机器翻译过程建构为元学习问题,使用特定稀缺资源领域下的语料库对所述通用策略模型反复训练并优化,得到优化后的通用策略模型;步骤
5、
使用优化后的通用策略模型进行稀缺资源领域英汉机器翻译,用户对翻译结果进行人工校正,校正后的内容返回给上述通用策略模型进行自适应优化,得到最终的翻译模型,通过上述最终的翻译模型完成所述基于元学习算法的稀缺资源领域英汉机器翻译
。2.
根据权利要求1所述的一种基于元学习算法的稀缺资源领域英汉机器翻译方法,其特征在于,步骤1中所述的语料库包括:收录不同主题的通用领域下双语平行语料库以及特定稀缺资源领域下的语料库
。3.
根据权利要求2所述的一种基于元学习算法的稀缺资源领域英汉机器翻译方法,其特征在于,步骤2中所述的基于序列到序列框架的神经机器翻译模型,包括编码器和解码器,编码器将输入内容映射到一个连续向量表示,解码器将向量表示映射到输出翻译内容
。4.
根据权利要求3所述的一种基于元学习算法的稀缺资源领域英汉机器翻译方法,其特征在于,步骤3中所述的通过泛化标记策略优化调整通用策略模型的参数,即采用泛化标记策略对特定稀缺资源领域下的语料库中的语料进行泛化和语言学标记,得到标记词典;使用通用策略模型对测试集进行翻译,并结合翻译结果和标记词典对所述通用策略模型进行优化调整
。5.
根据权利要求4所述的一种基于元学习算法的稀缺资源领域英汉机器翻译方法,其特征在于,步骤3中所述泛化标记策略,至少包括:关键词及关键短语的特定修正方法

特殊结构的泛化方法以及命名实体识别方法中的任意一种或任意组合
。6.
根据权利要求5所述的一种基于元学习算法的稀缺资源领域英汉机器翻译方法,其特征在于,步骤3中所述的关键词及关键短语的特定修正方法,包括:使用通用策略模型翻译特定稀缺资源领域下的语料库,将翻译结果和预期翻译结果进行比对,对不一致的关键词及关键短语进一步标签标记和修正
。7.
根据权利要求5所述的一种基于元学习算法的稀缺资...

【专利技术属性】
技术研发人员:吴帆陈鹏王妍妍黄兆孟陈文颖
申请(专利权)人:中电莱斯信息系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1