System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向民航机务领域的低资源机器翻译方法和系统技术方案_技高网

面向民航机务领域的低资源机器翻译方法和系统技术方案

技术编号:40662875 阅读:4 留言:0更新日期:2024-03-18 18:56
本发明专利技术涉及民航机务文本英中翻译领域,具体公开了面向民航机务领域的低资源机器翻译方法和系统,用于解决目前机务领域的翻译不准确,以及开源语料库仅能采用人工标注方式的问题;本发明专利技术在开源的通用领域预训练NMT大规模神经网络模型基础上,通过zero‑shot无训练模式,针对机务领域要求的术语固定翻译和标识文本保留,以领域术语注释与强制性文本替换的方式将模型迁移到机务领域上,实现机务翻译的领域固定表达和专业性;本发明专利技术不需要提供大量且丰富的语料进行训练,对于样本数据量较少的场景下也能够使用;对文本的控制能力较强,能够保证机务领域下对术语与标识文本的要求;对于需要扩展的新的术语,仅需更新相应的领域词典即可,容易扩展与维护。

【技术实现步骤摘要】

本专利技术涉及民航机务文本英中翻译领域,更具体地说,本专利技术涉及面向民航机务领域的低资源机器翻译方法和系统


技术介绍

1、随着民航业的迅速发展和国外新机型的不断涌入,机务人员在工作中所接触的英文技术资料如飞机操作手册、维修手册等文件日益增多,这对机务人员的专业英语水平也提出了更高的要求和挑战,当前网络上通用的免费软件普遍存在航空类技术文件术语翻译不准确,翻译表达不符合机务领域的使用习惯,以及其中一些需要保持的标识文本(标牌、引用语、单位等)被翻译,因此难以满足业务要求。基于transformer等框架的大规模神经网络模型虽然满足翻译要求,但为了实现领域下若干翻译约束项,需要各自准备充分的高质量平行语料以供模型训练,机务领域尚未有如此规模的开源语料库,仅能采用人工标注的方式,应用门槛较高,为了解决上述问题,现提供一种技术方案。


技术实现思路

1、为了克服现有技术的上述缺陷,本专利技术提供面向民航机务领域的低资源机器翻译方法和系统,在开源的通用领域预训练nmt大规模神经网络模型基础上,通过zero-shot无训练模式,针对机务领域要求的术语固定翻译和标识文本保留,能很好的保证机务领域下对术语与标识文本的要求,以领域术语注释与强制性文本替换的方式将模型迁移到机务领域上,实现机务翻译的领域固定表达和专业性,并容易扩展与维护,以解决上述
技术介绍
中提出的问题。

2、为实现上述目的,本专利技术提供如下技术方案:

3、面向民航机务领域的低资源机器翻译方法和系统,包括如下步骤:

4、步骤一,输入源文本至译前处理模块,并更新源文本;

5、步骤二,加载基于transformer的开源通用领域nmt模型,输入译前编辑源文本,输出模型翻译中文文本;

6、步骤三,将开源通用领域nmt模型输出的中文文本输入至其译后处理模块,更新中文文本。

7、作为本专利技术的进一步方案,步骤一中输入源文本至译前处理模块,译前处理模块包括强制性文本替换中(保证目标文本不被翻译)的翻译不变性占位符部分与领域术语注释中(目标文本翻译至指定含义)的提示注释生成部分。

8、作为本专利技术的进一步方案,强制性文本替换中的翻译不变性占位符部分实现步骤为:

9、步骤a1,设定欲替换文本的正则表达式集合,构成全局字典;

10、步骤a2,设定目标文本检查器,为其配置若干条件和对应动作处理方法,各条件为互斥关系;

11、步骤a3,设定占位符生成器,为其配置缩写词性质的占位符模板,为输入文本生成翻译不变性的唯一占位符;

12、步骤a4,循环迭代正则表达式集合中正则表达式对输入源文本进行匹配,匹配结果输入至目标文本检查器,其内部循环检查各条件以及启用相应动作,更新匹配结果;

13、步骤a5,分别启用占位符生成器输出对应各匹配结果的唯一翻译不变性占位符进行替换,记录占位符与匹配结果映射关系至全局字典。

14、作为本专利技术的进一步方案,领域术语注释中的提示注释生成步骤为:

15、步骤b1,加载领域词典中的中文词组以及英文词组进入术语匹配器,将英文词组中的每个词组的衍生词形,包括单复数以及时态,添加至术语匹配器;

16、步骤b2,设立匹配术语词汇检查器,配置若干忽略匹配结果条件进行检查,且忽略匹配结果条件间互斥;

17、步骤b3,设立注释生成器,配置数值代码的is生成模板,为英文术语词汇生成唯一的代码指示文本,构成“术语is代码”的文本语义映射关系,保存至英文词组查询字典中;

18、步骤b4,设立注释聚合器,配置注释文本分界符与连接符,将输入若干注释文本连接并包裹合并输出;

19、步骤b5,输入源文本到术语匹配器中进行匹配,输出匹配到的若干术语词汇;

20、步骤b6,输入所有术语词汇到匹配术语词汇检查器中进行过滤,输出英文术语词组集合,保存匹配到的英文词组与对应的中文词组的映射关系至特别词组字典中;

21、步骤b7,将英文术语词组集合中英文词组输入至注释生成器,分别生成各自注释文本,输入所有注释文本至注释聚合器,得到英文总体注释;

22、步骤b8,将英文总体注释置于源文本开头。

23、作为本专利技术的进一步方案,步骤三输入至开源通用领域nmt模型的译后处理模块,译后处理模块包括强制性文本替换中的占位符还原部分与领域术语注释中的注释还原部分。

24、作为本专利技术的进一步方案,强制性文本替换中的占位符还原部分,根据全局字典内保存的占位符与匹配结果映射关系,占位符的翻译不变性,对中文文本以正则匹配替换的方式还原对应的匹配结果。

25、作为本专利技术的进一步方案,领域术语注释中的注释还原部分实现步骤为:

26、步骤c1,根据注释文本分界符,提取中文文本中的与英文总体注释对应的中文总体注释;

27、步骤c2,根据数值代码is模板的“术语is代码”的文本语义映射关系,从中文总体注释中得到各译后术语与数值代码的映射关系,保存至翻译细则指示字典;

28、步骤c3,根据翻译细则指示字典、英文词组查询字典以及特别词组字典,通过其内译后术语→数值代码→英文词组→中文词组映射链,找到译后术语与中文词组之间的映射关系;

29、步骤c4,根据映射关系中的译后术语去匹配中文文本中,非注释文本内相同的翻译结果,将匹配结果替换为对应的中文词组。

30、本专利技术面向民航机务领域的低资源机器翻译方法和系统的技术效果和优点:本专利技术在开源的通用领域预训练nmt大规模神经网络模型基础上,通过zero-shot无训练模式,针对机务领域要求的术语固定翻译和标识文本保留,以领域术语注释与强制性文本替换的方式将模型迁移到机务领域上,实现机务翻译的领域固定表达和专业性;本专利技术不需要提供大量且丰富的语料进行训练,对于样本数据量较少的场景下也能够使用;对文本的控制能力较强,能够保证机务领域下对术语与标识文本的要求;对于需要扩展的新的术语,仅需更新相应的领域词典即可,容易扩展与维护。

本文档来自技高网...

【技术保护点】

1.面向民航机务领域的低资源机器翻译方法和系统,其特征在于,包括如下步骤:

2.根据权利要求1所述的面向民航机务领域的低资源机器翻译方法和系统,其特征在于,步骤一输入源文本至译前处理模块,译前处理模块包括强制性文本替换中的翻译不变性占位符部分与领域术语注释中的提示注释生成部分。

3.根据权利要求2所述的面向民航机务领域的低资源机器翻译方法和系统,其特征在于,强制性文本替换中的翻译不变性占位符部分实现步骤为:

4.根据权利要求2所述的面向民航机务领域的低资源机器翻译方法和系统,其特征在于,领域术语注释中的提示注释生成步骤为:

5.根据权利要求1所述的面向民航机务领域的低资源机器翻译方法和系统,其特征在于,步骤三输入至开源通用领域NMT模型的译后处理模块,译后处理模块包括强制性文本替换中的占位符还原部分与领域术语注释中的注释还原部分。

6.根据权利要求5所述的面向民航机务领域的低资源机器翻译方法和系统,其特征在于,强制性文本替换中的占位符还原部分,根据全局字典内保存的占位符与匹配结果映射关系,占位符的翻译不变性,对中文文本以正则匹配替换的方式还原对应的匹配结果。

7.根据权利要求5所述的面向民航机务领域的低资源机器翻译方法和系统,领域术语注释中的注释还原部分实现步骤为:

...

【技术特征摘要】

1.面向民航机务领域的低资源机器翻译方法和系统,其特征在于,包括如下步骤:

2.根据权利要求1所述的面向民航机务领域的低资源机器翻译方法和系统,其特征在于,步骤一输入源文本至译前处理模块,译前处理模块包括强制性文本替换中的翻译不变性占位符部分与领域术语注释中的提示注释生成部分。

3.根据权利要求2所述的面向民航机务领域的低资源机器翻译方法和系统,其特征在于,强制性文本替换中的翻译不变性占位符部分实现步骤为:

4.根据权利要求2所述的面向民航机务领域的低资源机器翻译方法和系统,其特征在于,领域术语注释中的提示注释生成步骤为:

...

【专利技术属性】
技术研发人员:赵云波方永鸣陈凡王容辉陈孪苇钱昆方天柱林鹭鑫吴贻清黄思颖满学东徐诗雨吴智华
申请(专利权)人:厦门航空有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1