一种基于元学习算法的稀缺资源领域英汉机器翻译方法技术

技术编号：39394787 阅读：10 留言：0更新日期：2023-11-19 15:49

本发明专利技术提出了一种基于元学习算法的稀缺资源领域英汉机器翻译方法，包括：建设语料库，包括千万级别通用领域双语平行语料

全部详细技术资料下载

【技术实现步骤摘要】
一种基于元学习算法的稀缺资源领域英汉机器翻译方法

[0001]本专利技术涉及一种机器翻译方法，特别是一种基于元学习算法的稀缺资源领域英汉机器翻译方法
。

技术介绍

[0002]随着全球化的发展，各国交流沟通愈发繁多，在大语种上的机器翻译的研究早已如日中天，基于稀缺资源领域的翻译也相继展开
。
主流方法包括基于中间语言桥接的方法
、
仅基于单语数据的方法
、
基于半监督联合训练的方法和基于元学习的方法等
。
[0003]元学习
(Meta Learning)
也叫“学会学习”(Learning to learn)
，它是要“学会如何学习”，即利用以往的知识经验来指导新任务的学习，具有学会学习的能力
。
当前的深度学习大部分情况下只能从头开始训练
。
使用
Finetune
来学习新任务，效果往往不好，而元学习就是研究让机器学会如何去学习，从不同任务中学习一个通用的学习方法论，来实现对未知新任务的泛化
。
[0004]当前机器翻译模型大部分情况下只能从头开始训练，使用模型微调
(Finetune)
来学习新任务，在稀缺资源领域效果往往不好
。
本专利技术通过泛化策略对特定稀缺资源领域语料进行泛化并标记，充分利用稀缺资源领域的语法结构
、
术语词典等
。
同时将翻译问题建构为元学习问题，先使通用领域下千...

【技术保护点】

【技术特征摘要】
1.
一种基于元学习算法的稀缺资源领域英汉机器翻译方法，其特征在于，包括如下步骤：步骤
1、
建设语料库；将所述语料库划分为测试集和训练集；步骤
2、
使用语料库中的通用领域下双语平行语料库，训练基于序列到序列框架的神经机器翻译模型，得到通用策略模型；步骤
3、
通过泛化标记策略优化调整通用策略模型的参数：采用关键词及关键短语的特定修正方法
、
特殊结构的泛化方法以及命名实体识别方法三种泛化标记策略对特定稀缺资源领域下的语料库中的语料进行泛化和语言学标记，得到标记词典；使用通用策略模型对测试集进行翻译，并结合翻译结果和标记词典对所述通用策略模型进行优化调整；步骤
4、
将所述机器翻译过程建构为元学习问题，使用特定稀缺资源领域下的语料库对所述通用策略模型反复训练并优化，得到优化后的通用策略模型；步骤
5、
使用优化后的通用策略模型进行稀缺资源领域英汉机器翻译，用户对翻译结果进行人工校正，校正后的内容返回给上述通用策略模型进行自适应优化，得到最终的翻译模型，通过上述最终的翻译模型完成所述基于元学习算法的稀缺资源领域英汉机器翻译
。2.
根据权利要求1所述的一种基于元学习算法的稀缺资源领域英汉机器翻译方法，其特征在于，步骤1中所述的语料库包括：收录不同主题的通用领域下双语平行语料库以及特定稀缺资源领域下的语料库
。3.
根据权利要求2所述的一种基于元学习算法的稀缺资源领域英汉机器翻译方法，其特征在于，步骤2中所述的基于序列到序列框架的神经机器翻译模型，包括编码器和解码器，编码器将输入内容映射到一个连续向量表示，解码器将向量表示映射到输出翻译内容
。4.
根据权利要求3所述的一种基于元学习算法的稀缺资源领域英汉机器翻译方法，其特征在于，步骤3中所述的通过泛化标记策略优化调整通用策略模型的参数，即采用泛化标记策略对特定稀缺资源领域下的语料库中的语料进行泛化和语言学标记，得到标记词典；使用通用策略模型对测试集进行翻译，并结合翻译结果和标记词典对所述通用策略模型进行优化调整
。5.
根据权利要求4所述的一种基于元学习算法的稀缺资源领域英汉机器翻译方法，其特征在于，步骤3中所述泛化标记策略，至少包括：关键词及关键短语的特定修正方法
、
特殊结构的泛化方法以及命名实体识别方法中的任意一种或任意组合
。6.
根据权利要求5所述的一种基于元学习算法的稀缺资源领域英汉机器翻译方法，其特征在于，步骤3中所述的关键词及关键短语的特定修正方法，包括：使用通用策略模型翻译特定稀缺资源领域下的语料库，将翻译结果和预期翻译结果进行比对，对不一致的关键词及关键短语进一步标签标记和修正
。7.
根据权利要求5所述的一种基于元学习算法的稀缺资...

【专利技术属性】
技术研发人员：吴帆，陈鹏，王妍妍，黄兆孟，陈文颖，
申请(专利权)人：中电莱斯信息系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人