System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种词典释义增强的古文到现代文机器翻译方法技术_技高网
当前位置: 首页 > 专利查询>南京大学专利>正文

一种词典释义增强的古文到现代文机器翻译方法技术

技术编号:41287190 阅读:8 留言:0更新日期:2024-05-11 09:35
本发明专利技术公开了一种词典释义增强的古文到现代文机器翻译方法,包括以下步骤:步骤1,收集古文词典释义资源;步骤2,在步骤1中收集的古文词典释义资源中,选择词典释义:根据待翻译的古文即源端句中的每一个汉字,计算其在该句子中的上下文表示与该汉字在每一个词典释义的示例中的上下文的表示的相似度,选取相似度最大的词典释义,并记录选取该词典释义的置信度;步骤3,词典释义编码:利用编码器获取步骤2中选取的词典释义中每一个词的上下文表示;步骤4,融合词典释义解码,获得预测的翻译结果,完成所述的词典释义增强的古文到现代文机器翻译。

【技术实现步骤摘要】

本专利技术涉及一种机器翻译方法,特别是一种词典释义增强的古文到现代文机器翻译方法


技术介绍

1、现存的古籍翻译以专业的翻译人员为主。尽管已有一大批经典文献被翻译成现代汉语,但由于人工翻译效率低、代价大,因此仍有大量的古典文献没有对应的白话译文,这限制了古典文化的进一步传播。

2、机器翻译是提升古籍理解和翻译效率的重要手段。一方面,借助于已翻译出的古籍资源,机器翻译模型可较充分地学习到古汉语-现代汉语平行语料中的翻译知识,因此古籍爱好者可借助机器翻译模型快速地理解需要阅读的古文。另一方面,古籍翻译人员也可借助古籍翻译模型先获得古文的粗略翻译,再对其做进一步的精细翻译,这种机翻-译后编辑的模式可大大加速翻译人员的工作效率。

3、现有文言文机器翻译的技术可分为四个发展阶段:规则机器翻译、实例机器翻译、统计机器翻译(smt)、神经网络机器翻译(nmt)。基于规则的机器翻译(参考:王爽,熊德兰,王晓霞.古文翻译系统的设计与实现[j].电脑知识与技术,2009,5(04):855-856+867.韩芳,杨天心,宋继华.基于句本位句法体系的古汉语机器翻译研究[j].中文信息学报,2015,29(2):103-110,117.)可通过构建大量的规则来实现古汉语的自动翻译系统,但是由于规则构建的成本较高,译文准确性低且不符合现代汉语的语法规则,因而逐渐被淘汰。在规则机器翻译之后,有研究人员(参考:郭锐.基于实例的古汉语机器翻译研究[d].北京:北京师范大学,2007)为古文句子建立全文索引,基于汉字的信息熵,给出了自动句对齐和最相似古文句子检索的实验结果,开始探索基于实例的机器翻译模型。不过实例机器翻译需要对有效的实例模版进行修改后才能得到较为可靠的译文,所以当实例语料库无法覆盖到输入的语料时,翻译质量将会明显下降。在统计机器翻译时代,研究人员(参考:文言文翻译及阅读理解关键技术的研究[d].黑龙江:哈尔滨工业大学,2015.)古汉语现代汉语平行语料库进行获取与加工,并对统计机器翻译系统moses的古汉语和现代汉语的翻译进行优化,在词汇和短语翻译方面获得了较大的提升。但由于统计机器翻译主要通过对不同的功能模块的单独训练来实现古文到现代文的翻译,所以系统实现十分复杂,且句内调序能力很弱,无法实现流畅翻译。目前在古文翻译领域,主流的范式为神经机器翻译,通过在大规模平行语料上训练一个较大规模的编码器-解码器模型来构建古文-现代文机器翻译系统(参考:魏家泽,何彦青,董诚,洪涛,苏瑞欣.基于古籍白话译本的古文机器翻译研究.ccmt,2020.哈尔滨.)。

4、然而,由于古文翻译任务目前仍然存在语料库较小、知识覆盖不全面的问题,这严重限制了古文翻译模型的性能。在以往的机器翻译研究中,解决语料欠缺的重要手段之一就是词典资源的使用。目前使用词典资源增强机器翻译的工作主要分为两种,一种是利用双语词典构造伪造的平行数据,并在其上训练机器翻译模型(参考:zhao,yang,jiajunzhang,yu zhou and chengqing zong.“knowledge graphs enhanced neural machinetranslation.”international joint conference on artificial intelligence(2020).,另一种是将双语词典作为机器翻译模型在训练和测试时可访问到的资源,通过注意力网络等技术动态地从双语词典中选取最适合的信息融合到翻译过程中(参考:yangfeng,shiyue zhang,andi zhang,dong wang,and andrew abel.2017.memory-augmentedneural machine translation in proceedings of the 2017 conference on empiricalmethods in natural language processing,pages 1390–1399,copenhagen,denmark.association for computational linguistics.zhang,tong,long zhang,weiye,bo li,jinan sun,xiaoyu zhu,wenxin zhao and shikun zhang.“point,disambiguate and copy:incorporating bilingual dictionaries for neural machinetranslation.”annual meeting of the association for computational linguistics(2021).)。然而,过往的这些方法存在两个主要的问题,一是自然语言存在歧义性,对于某些源语言多义词而言,其往往存在多个对应的目标语言翻译,如何在选择过程中进行更好地消岐是一个急需解决的问题;另一方面,在很多情况下,词典资源并不直接给出源语言词的翻译,而是使用目标端语言对该词进行解释。由于自然语言形式自由,因此研究如何从释义内容中抽取最有效的信息也是一个值得关注的问题。


技术实现思路

1、专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种词典释义增强的古文到现代文机器翻译方法。

2、为了解决上述技术问题,本专利技术公开了一种词典释义增强的古文到现代文机器翻译方法,包括以下步骤:

3、步骤1,收集古文词典释义资源;

4、步骤2,在步骤1中收集的古文词典释义资源中,选择词典释义:根据待翻译的古文即源端句中的每一个汉字,计算其在该句子中的上下文表示与该汉字在每一个词典释义的示例中的上下文的表示的相似度,选取相似度最大的词典释义,并记录选取该词典释义的置信度;

5、步骤3,词典释义编码:利用编码器获取步骤2中选取的词典释义中每一个词的上下文表示;

6、步骤4,融合词典释义解码,获得预测的翻译结果,完成所述的词典释义增强的古文到现代文机器翻译。

7、进一步的,步骤2中所述的选择词典释义,具体包括以下步骤:

8、步骤2-1,设待翻译的句子即源端句为x,对于其中的每一个汉字wi,i表示第i个汉字;

9、利用一个预训练的编码器,编码源端句x,获得第i个汉字wi在该句子中的上下文表示,记作:plm(x,wi);

10、步骤2-2,设汉字wi在古文词典释义资源中,对应有n个释义{d1,d2,…,dn},并且第k个释义dk对应的示例中的上下文为使用与步骤2-1相同的预训练编码器,编码上述上下文,得到汉字wi在上下文中的表示;

11、步骤2-3,将汉字wi在上下文中的表示进行平均,即得到汉字wi的语义对应于释义dk时,对应的上下文表示

12、步骤2-4,基于汉字wi在待翻译句子中的上下文表示plm(x,wi)与该汉字的每一个释义对应的上下文表示之间的余弦相似度,选择本文档来自技高网...

【技术保护点】

1.一种词典释义增强的古文到现代文机器翻译方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤2中所述的选择词典释义,具体包括以下步骤:

3.根据权利要求2所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤3中所述的词典释义编码,具体包括以下步骤:

4.根据权利要求3所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤4中所述的融合词典释义解码,包括:

5.根据权利要求4所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤4-1中所述的计算释义相似度,具体包括以下步骤:

6.根据权利要求5所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤步骤4-1-2中所述的计算基于注意力打分的释义级别相似度,具体方法包括:

7.根据权利要求6所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤4-1-2中所述的计算基于释义内容的词级别相似度,具体方法包括:

8.根据权利要求7所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤4-2中所述的计算最终的预测概率,具体包括以下步骤:

9.根据权利要求8中所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤1中所述的古文词典释义资源,至少包含:古文汉字,每个古文汉字对应若干个释义,每个释义对应若干个实例上下文。

10.根据权利要求9所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤2-1中所述的预训练的编码器为:SikuRoBERTA预训练语言模型。

...

【技术特征摘要】

1.一种词典释义增强的古文到现代文机器翻译方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤2中所述的选择词典释义,具体包括以下步骤:

3.根据权利要求2所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤3中所述的词典释义编码,具体包括以下步骤:

4.根据权利要求3所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤4中所述的融合词典释义解码,包括:

5.根据权利要求4所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤4-1中所述的计算释义相似度,具体包括以下步骤:

6.根据权利要求5所述的一种词典释义增强的古文到现代文机器翻译方法,其特征在于,步骤步骤4-1-2中...

【专利技术属性】
技术研发人员:黄书剑李家欢吴若纯胡文菁陈冀轩徐维潞陈家骏
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1