限定性神经网络机器翻译方法及存储介质技术

技术编号:20389936 阅读:35 留言:0更新日期:2019-02-20 02:52
一种限定性神经网络机器翻译方法及存储介质,包括下述步骤:1、训练基本的NMT模型;2、使用该NMT模型翻译一个即验证集,并输出ATTENTION LAYER里的词对齐信息;3、使用词性标注器进行词性自动标注,然后利用词对齐信息自动生成

【技术实现步骤摘要】
限定性神经网络机器翻译方法及存储介质
本专利技术公开一种翻译方法,特别是一种限定性神经网络机器翻译方法及存储介质。
技术介绍
从事翻译相关工作的人员大多会遇到下述问题:(1)是否为当前神经网络机器翻译莫名的译文结果苦恼?(2)是否为翻译过程中的数字问题感到头疼?(3)是否因为术语等关键词翻译错误而被客户指责?(4)是否因为政治新闻翻译的敏感性而望而却步?(5)是否想充分干预机器翻译的前处理和后编译,实现高效率翻译的目标?(6)是否想自动的添加手中留存的宝贵的术语库,得到你想要的译文结果?翻译是一个艺术和工程的完美结合的过程,也是一种沟通传达的一种方式。神经网络机器翻译较传统的统计机器翻译译文质量有了极大的提高,然而一旦涉及到术语等关键信息,我们往往得到的译文往往是词不达意的。事实上,语言服务从业人员更希望用更少的工程脑力,来达到最终的准确译文的目的。在翻译的过程中,包括口译和笔译,如果把一句话中的关键信息(主从关系、数字、日期、人名、地名、机构名、货币等)表达出来,就能基本达到沟通的目的。如果把原文中的关键词(软件设计中的算法工程师叫:命名实体)替换成想要的准确译文,不就能实现准确翻译的目的吗,有这么麻烦吗?但是,在实际应用中,却绝非如此。我们想翻译一句话,比如:澳门皇冠假日酒店委托我来翻译这篇文章。只需要,把“澳门皇冠假日酒店”替换成事先准备的术语“CrownePlazaMacau”,就大功告成,稍作修改就得到想要的译文:CrownePlazaMacau委托我来翻译这篇文章。CrownePlazaMacaucommissionedmetotranslatethisarticle.但是现在的结果是:CrownePlazaMacaocommissionedmetotranslatethisarticle.系统“悄悄地”修改了译文,没有实现我们指定的译文!在传统基于短语的统计机器翻译等系统中,数字或者专有名词,可以简单地把这些词原封不动的复制到翻译句子中,但是在神经网络机器翻译中,这样的操作就无法有效的进行。要理解这些,先要理解机器翻译的进程和简单的原理。1、机器翻译进化以人工智能(AI)为代表的新科技、以消费升级为代表的新理念、以实体经济为代表的新政策,正在深刻改变中国创业创新的方向和内涵,2018年将是许多人工智能技术落地之年。从技术的角度来看,人工智能主要涉及文本、语音和图像。文本领域两个典型的应用就是机器翻译和搜索引擎,机器翻译和语音结合,就是大家熟悉的语音翻译,机器翻译和图像结合,就能衍生出图像翻译的应用。机器翻译从二十世纪四十年代开始至今,已经经历了大约基于规则的、实例的、统计和神经网络算法的过程,机器翻译并非一帆风顺的,也是经历过各种曲折进化,这里边有一个规律,就是每一个迭代大变革中,基本都经历了20多年的时间,每一个阶段都会逐渐采纳原有算法模型的优点,来提高最终译文的质量。时至今日,神经网络算法正在不断的处于完善的过程阶段,下一个大的变革,普遍认为来自语义层面的突破。1.1、基于规则的机器翻译一般来讲,20世纪70年代前的机器翻译属于开创和警备期,那时候很多国家是为了军事目的而展开的争夺,真正的规则系统始于70年代。规则的原理很简单,最初就直观的认为,找很多语言学家,集中写一些语法规则,并辅助一些双语词典和转写规则就能实现精准的翻译。在一些特定的场景,如天气预报、时间预测等,规则系统在形态的准确性、结果的可复现性、针对特定领域进行调整的能力还是非常强的,但是要创造一个理想的基于规则的系统,就算让语言学家尽力穷尽一切拼写规则来增强它,也总会遇到例外。英语有不规则动词、德语有可分离前缀、俄语有不规则的后缀,在人们说话的时候又会有各自的特点,有些词根据上下文还会产生不同的意思,要考虑所有细微规则,要耗费巨大的人力资源。1.2、基于实例的机器翻译基于实例的机器翻译方法,比基于规则的方式,前进了一步。从这时候开始,基于语料库的方法,正式走上机器翻译的舞台。日本的长尾真教授在1981年先提出了这种思路:直接用已经准备好的短语,不用重复翻译。这种方法,在现有的平行语料库中找出与待翻译部分最相似的翻译实例,再对实例的译文通过替换、删除或者增加等一系列操作,实现翻译。基于实例的这种方法,相似的例句越多,翻译的效果越好。当前基于记忆库的检索,其实就是基于实例的一种特例。受制于当时双语数据有限(直到现在也缺),这种方法出现时并没有立刻风靡,但它走出了革命的第一步,之后不到5年,就出现了统计机器翻译。1.3、基于统计的机器翻译90年代早期,IBM研究中心首次展示了对规则和语言学一无所知的机器翻译系统(这个时候,中国机器翻译科研进展还是比较少)。这个系统分析了两种语言中类似的文本,尝试理解其中的模式。这种方法,将两种语言中同义的句子切分成词进行匹配,然后去计算某些片段会翻译成多少种可能,最后统计出来频率高的,就认为正确译文的可能性较大。基于统计的方法,也经历了基于词的,基于短语的和基于句法的模型,其中商用系统中使用的基于短语的模型最多,也最为成熟。2006年,基于统计的机器翻译方法开始普及了,Google翻译、Yandex、微软必应等在线翻译工具都用上了基于短语的机器翻译,一直用到了2016年。直到2016那年,它都被视为最先进的机器翻译方法。统计机器翻译,比之前所有方法都更加准确高效,也不需要语言学家。我们给机器更多的文本,它就给我们更好的翻译。不过认为设定的各种特征值,以及需要N多种自然语言处理的技术(分词、词性标注、句法分析等)每一步的错误率,都导致最终的结果有很大偏差。而且最大的问题是调序模型的不完善,覆盖不到全局特征,导致统计机器翻译一直阅读的流畅性并不是很好。
技术实现思路
针对上述提到的现有技术中的机器翻译准确率低、翻译结果偏差很大的缺点,本专利技术提供一种限定性神经网络机器翻译方法及存储介质,应用了UNK替换功能,可以有效保证名词翻译的准确度。本专利技术解决其技术问题采用的技术方案是:一种限定性神经网络机器翻译方法,该翻译方法包括下述步骤:步骤S1、训练基本的NMT模型;步骤S2、使用该NMT模型翻译一个即验证集,并输出ATTENTIONLAYER里的词对齐信息;步骤S3、使用词性标注器进行词性自动标注,然后利用词对齐信息自动生成<UNK2>语料;步骤S4、把原本语料数据加上<UNK2>语料并重新训练;步骤S5、使用替换功能時,把需要替换的词先换成<UNK2>语料,进行解码后,再利用词对齐信息替换回去;步骤S6、完成UNK替换解码过程。一种存储介质,存储介质内存储有实现如上述的限定性神经网络机器翻译方法的程序。本专利技术解决其技术问题采用的技术方案进一步还包括:所述的<UNK2>语料包括URL、EMAIL、人名、数字、日期、地址、术语、专有名词以及其他特殊词。所述的人名、日期和数字,都是先通过命名实体识别进行识別后,再通过基于规则的规则翻译,翻译至目标语言。所述的URL或EMAIL或其他特殊词则通过正则表达式去匹配,然后直接替换成UNK,保证一致即可。所述的步骤S5替换的算法,步骤如下:(1)、使用POSTAGGING找出目标句子名词;(2)、找到名词对应的本文档来自技高网
...

【技术保护点】
1.一种限定性神经网络机器翻译方法,其特征是:所述的翻译方法包括下述步骤:步骤S1、训练基本的NMT模型;步骤S2、使用该NMT模型翻译一个即验证集,并输出ATTENTION LAYER里的词对齐信息;步骤S3、使用词性标注器进行词性自动标注,然后利用词对齐信息自动生成

【技术特征摘要】
1.一种限定性神经网络机器翻译方法,其特征是:所述的翻译方法包括下述步骤:步骤S1、训练基本的NMT模型;步骤S2、使用该NMT模型翻译一个即验证集,并输出ATTENTIONLAYER里的词对齐信息;步骤S3、使用词性标注器进行词性自动标注,然后利用词对齐信息自动生成<UNK2>语料;步骤S4、把原本语料数据加上<UNK2>语料并重新训练;步骤S5、使用替换功能時,把需要替换的词先换成<UNK2>语料,进行解码后,再利用词对齐信息替换回去;步骤S6、完成UNK替换解码过程。2.根据权利要求1所述的限定性神经网络机器翻译方法,其特征是:所述的<UNK2>语料包括URL、EMAIL、人名、数字、日期、地址、术语、专有名词以及其他特殊词。3.根据权利要求...

【专利技术属性】
技术研发人员:田亮黎浩添
申请(专利权)人:新译信息科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1