【技术实现步骤摘要】
混合深度学习网络与单词生成统计学指导的机器翻译方法
本专利技术涉及面向机器翻译
,更具体的,涉及一种混合深度学习网络与单词生成统计学指导的机器翻译方法。
技术介绍
机器翻译研究是对如何通过计算机实现两种自然语言间翻译任务的技术研究,机器翻译技术现已广泛应用于人们的生产、生活当中。目前,机器翻译研究主要面临以下研究难点:第一,从语言学的角度出发,自然语言具有多样性、多变性和歧义性。同样的单词、短语或句子在不同的语境中可能代表不同的意思,不同甚至意义相反的单词、短语或句子在同一语境中有时却能表达相同的含义;自然语言还常存在语言语法不规范的问题,因其表达的灵活性,仅从语言学角度出发都难以寻找能够全面覆盖语法的统一规则;新字、新词和错别字的混用,亦是计算机识别和理解自然语言的主要障碍。第二,从数学建模的角度出发,即便语言学能够提供一个完全覆盖语言语法的统一规则,能够及时、正确对新字、新词、错别字进行更新和更错,也难以建立一个能够尽可能包含文字信息、理解语义并且符合计算机可承受能力的数学模型。第三,从语料的角度出发,什么样的语料正确反应语言特点,如何采集或获取这样的语料都是机器翻译研究所面临的重要问题。在能够提供优质语料,解决第三个研究难点的基础下,统计机器翻译(StatisticalMachineTranslation,SMT)方法与基于神经网络的机器翻译(NeuralMachineTranslation,NMT)方法针对第一、第二个研究难点采用了不同的解决方案。SMT方法通过对大量平行语料的统计学分析及统计特 ...
【技术保护点】
1.混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,包括以下步骤:/nS1:构建基于神经网络的机器翻译模型,即NMT模型、统计机器翻译模型,即SMT模型、第一分类器和第二分类器,形成混合机器翻译系统;/nS2:将待翻译语句同步输入NMT模型和SMT模型中,引入翻译覆盖向量,统一NMT模型与SMT模型的翻译进度;/nS3:使用SMT模型为NMT模型译码过程提供单词生成指导,同时,NMT模型将其注意力参数与SMT模型共享,SMT模型接收并结合注意力参数产生当前译码步骤的生成词评分;/nS4:利用第一分类器、第二分类器分步指导混合机器翻译系统完成翻译译码过程。/n
【技术特征摘要】
1.混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,包括以下步骤:
S1:构建基于神经网络的机器翻译模型,即NMT模型、统计机器翻译模型,即SMT模型、第一分类器和第二分类器,形成混合机器翻译系统;
S2:将待翻译语句同步输入NMT模型和SMT模型中,引入翻译覆盖向量,统一NMT模型与SMT模型的翻译进度;
S3:使用SMT模型为NMT模型译码过程提供单词生成指导,同时,NMT模型将其注意力参数与SMT模型共享,SMT模型接收并结合注意力参数产生当前译码步骤的生成词评分;
S4:利用第一分类器、第二分类器分步指导混合机器翻译系统完成翻译译码过程。
2.根据权利要求1所述的混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,在所述步骤S1中,所述NMT模型为常用的NMT模型,其最终输出结果为经过Softmax函数映射后词汇表中所有所有单词的译出概率估计;其中,将Softmax层从NMT模型模型中分离,并记为第零分类器。
3.根据权利要求2所述的混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,在所述步骤S1中,所述SMT模型包括基于一元模型的生成词评分系统和基于二元模型的生成词评分系统;其中:所述基于一元模型的生成词评分系统用于生成一元模型生成词评分;基于二元模型的生成词评分系统用于生成二元模型生成词评分。
4.根据权利要求3所述的混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,在所述步骤S2中,所述翻译覆盖向量用以显式标记待翻译语句中已被翻译的部分;对某一待翻译语句而言,翻译覆盖向量长度与该语句的句长相等,向量元素按序与待翻译语句中的各单词对齐,所有元素均只有0和1两种取值,0表示对应单词未被翻译,1表示对应单词已被翻译。
5.根据权利要求4所述的混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,为在译码过程中标记混合机器翻译系统的翻译状态,所述翻译覆盖向量使用如下更新规则:当混合机器翻译系统最终生成单词由基于一元模型的生成词评分系统或基于二元模型的生成词评分系统产生时,则根据SMT模型显式对齐关系更新对应位元素至1;若不由基于一元模型的生成词评分系统或基于二元模型的生成词评分系统产生,则当前译码步骤不对翻译覆盖向量做任何更新。
6.根据权利要求4所述的混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,在所述步骤S3中,基于一元模型的生成词评分系统具体计算过程为:
所述基于一元模型的生成词评分系统包括预评分模块、重排序评分模块和最终评分计算模块;
待翻译语句在基于一元模型的生成词评分系统中被切割为离散单词后被送入预评分模块中,根据翻译覆盖向量对单词进行预评分,具体计算过程为:
其中,xt表示通过翻译覆盖向量限定为待翻译语句中未被翻译的单词,yt限定为对应xt的预评分最高的nlocal个候选生成词,Hm、λm分别为预构造的统计学特征及其对应权重;
因待翻译语句被切割为离散单词后丢失了词对齐信息,而词对齐信息在机器翻译任务中具有重要的作用,预评分结果需送入重排序评分模块对候选词进行重排序评分;
重排序评分模块通过基于距离的词对齐信息计算对预评分结果进行重排序评分,具体计算公式为:
其中,分别表示待翻译语句中与当前时刻可能的译出结果yt、上一时刻最终译出结果yt-1对齐的单词在句中的位置;然而,在基于一元模型的生成词评分系统中,SMT模型难以确定待翻译语句中与yt-1对应的单词,即无法确定故使用NMT模型的注意力参数对式(2)进行更改,基于一元模型的生成词评分系统中候选单词yt的重排序评分计算公式如下:
其中,αt-1,j为NMT模型前一时刻产生的注意力参数,Tx为待翻译语句的总长度;为综合考虑译出结果yt的预评分和重排序评分,通过最终评分计算模块进行基于一元模型的生成词评分系统最终的评分计算;
在最终评分计算模块中存在一个门控单元,该门控单元负责调整单词预评分与重排序评分在最终评分中的权重,最终评分计算方法如式(4)所示:
score1(yt)=λ·SMT1(yt)+(1-λ)·d1(yt)(4)
其中,λ为取值为0-1的门控单元参数;最后,最终评分计算模块的输出将作为基于一元模型的生成词评分系统当前时刻的输出送至第一分类器中。
7.根据权利要求6所述的混合深度学习网络与单词生成统计学指导的机器翻译方法,其特征在于,在所述步骤S3中,基于二元模型的生成词评分系统具体计算过程为:
与基于一元模型的生成词评分系统不同的是,基于二元模型的生成词评分系统将包含Tx个单词的待翻译语句x分割成(Tx-1)个二元单元;由于二元单元经过SMT模型译出结果长度不定,因此需要将该结果补齐或截断为二元单元:当译出结果为一元单元时,在其尾部添加一位空白元素使之形成二元单元;当译出结果长度大于2时,仅保留译出结果的前两位作为基于二元模型的生成词评分系统的评分对象;
将所有译出二元单元中的元素作为候选结果,并按对齐假设与待翻译语句对齐形成序列,序列中的任意候选结果,均可能由两个接续的二元单元依两种对齐假设生成,故在基于二元模型的生成词评分系统中,对某一候选结果,应同时考虑两种对齐假设并分别进行评分,再由最终评分计算模块计算最终的生成词评分;
所述基于二元模型的生成词评分系统由两组预评分模块、重排序评分模块和一个最终评分计算模块组成,从t时刻候选结果序列中的某元素yt出发,基于二元模型的生成词评分系统具体计算过程为:
对t时刻的候选结果yt,当仅考虑第一种对齐假设,即yt为译出二元单元的第一个元素时,预评分方法与基于一元模型的评分系统相似,但因预评分输入为二元单元,预评分SMT2-1计算公式应修改为:
其中,<·>表示将括号内两元素连接为二元单元,表示待翻译语句中紧随xt出现的下一个词,n-best表示在输入为的情况下SMT模型输出评分最高的n个结果,<yt,_>表示输出结果的第一位元素为yt,第二位元素由翻译覆盖向量提供限制条件限定,xt、yt的定义与基于一元模型的评分方法相同,对于xt的范围限制同样通过翻译覆盖向量实现;
仅考虑第一种对齐假设时...
【专利技术属性】
技术研发人员:张逸钿,兰萍,杨丹,何花,吴志强,
申请(专利权)人:西藏大学,
类型:发明
国别省市:西藏;54
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。