【技术实现步骤摘要】
一种基于相似度感知的神经机器翻译方法
本专利技术涉及一种在神经机器翻译中对平行语料多维相似度进行建模且能够在测试集中识别高潜力语句并优化其对应翻译性能的技术,具体涉及一种基于相似度感知的神经机器翻译系统及方法,属于自然语言处理机器翻译
技术介绍
目前,神经机器翻译由于在多种自然语言上比传统的统计机器翻译更佳优越,在多场景计算机辅助翻译任务中被广泛采用。但是,大多数现有的神经机器翻译方法都集中在如何提高整体翻译性能上,对人类译员工作量的关注却很少。在计算机辅助翻译场景中,人类译员接收由机器翻译模型生成的翻译,首先会查看翻译是否存在错误并进行必要的纠正,然后对翻译错误进行译后编辑以确保最终的翻译质量。衡量审阅和译后编辑时间,是量化人类译员工作量的最直接有效的方法。当使用传统的神经机器翻译方法时,人类译员不了解译文质量,这意味人类译员必须要花费同等的工作量来审阅每个译文。在这种情况下,只研究如何提高整个测试集的翻译性能,仅仅可以减少译后编辑时间。在研究如何使计算机辅助翻译节省人类译员工作量方面,高潜力语句 ...
【技术保护点】
1.一种基于相似度感知的神经机器翻译方法,其特征在于,包括以下步骤:/n步骤1:构建结构翻译记忆库和对应结构相似度算法,用于检索高潜力结构语句;/n步骤2:构建模板翻译记忆库和对应模板相似度算法,用于检索高潜力模板语句;/n步骤3:基于多维度翻译记忆方法的由粗粒度到细粒度的识别策略,对测试集中的字符串、结构和模板维度的高潜力语句进行预先识别;/n将步骤1构建的结构翻译记忆库和对应结构相似度算法,和步骤2构建模板翻译记忆库和对应模板相似度算法,与传统翻译记忆方法结合,构成一个基于多维度相似度感知的识别模块,用于识别测试集中的多维度高潜力待翻译语句;/n为识别文本、结构和模板维 ...
【技术特征摘要】
1.一种基于相似度感知的神经机器翻译方法,其特征在于,包括以下步骤:
步骤1:构建结构翻译记忆库和对应结构相似度算法,用于检索高潜力结构语句;
步骤2:构建模板翻译记忆库和对应模板相似度算法,用于检索高潜力模板语句;
步骤3:基于多维度翻译记忆方法的由粗粒度到细粒度的识别策略,对测试集中的字符串、结构和模板维度的高潜力语句进行预先识别;
将步骤1构建的结构翻译记忆库和对应结构相似度算法,和步骤2构建模板翻译记忆库和对应模板相似度算法,与传统翻译记忆方法结合,构成一个基于多维度相似度感知的识别模块,用于识别测试集中的多维度高潜力待翻译语句;
为识别文本、结构和模板维度上的高潜力语句,采用三种基于多维度翻译记忆方法的由粗粒度到细粒度的识别策略:
粗粒度识别策略:一种粗粒度的字符串衰减粗粒度识别策略,该策略通过检索字符串相似度来识别测试集的字符串高潜力语句,其相似度门控阈值为0.6;
对于测试集中的每个源语句si,通过检索传统的翻译记忆库,得到m个最相似的候选语句M表示检索到的候选语句数量;然后,使用编辑距离算法计算出最高的字符串相似度得分;最后,根据字符串相似度得分,得到9组{S1,S2,...,S9},将{S6,S7,S8,S9}定义为字符串高潜力语句;
细粒度识别策略,包含两种细粒度的识别策略:
第一种为结构细粒度识别策略,该策略能够在每个字符串高潜力语句集合Si(Si∈{S6,S7,S8,S9}中识别高潜力结构语句;该策略检索结构翻译记忆库,得到初始句法树集利用树相似度函数计算出最高的结构相似度得分;该策略的相似度门控阈值设为0.9,以确定当前的句子是否具有结构上的高翻译潜能;最后得到结构高潜能集合{T6,T7,T8,T9};
另一种为模板细粒度识别策略,该策略能够识别高潜力的句子的每个字符串组高潜力Si(Si∈{S6,S7,S8,S9},该策略的相似度门控阈值设为0.9;最后得到模板高潜能集合{T6,T7,T8,T9};
步骤4:构建多维度相似度先验知识,对训练集中所有平行语句进行多维度相似度检索;将多维度相似度先验知识融入到神经翻译模型中,用于指导训练过程;
步骤5:利用训练完成的翻译神经模型,对多维度高潜力待翻译语句分别进行翻译。
2.如权利要求1所述的一种基于相似度感知的神经机器翻译方法,其特征在于,步骤1包括以下步骤:
首先,利用成分句法树分析方法,在训练语料集合的平行句对上,抽取平行句法树对;
然后,利用平行句法树对构建结构翻译记忆库,并设计对应的结构相似度算法,以检索高潜力结构语句并计算结构相似度。
3.如权利要求2所述的一种基于相似度感知的神经机器翻译方法,其特征在于,所述利用平行句法树对构建结构翻译记忆库,包括以下步骤:
首先,利用成分树句法分析工具,对训练集中的平行语句进行成分树句法分析,并对抽取的平行句法树做序列化处理;
然后,删除掉序列化平行句法树的全部叶子节点,得到无词语信息的序列化句法树;经过句法树去重,得到约90%数量的去重序列化句法树;
之后,对去重序列化句法树建立索引,并将匹配返回数量值设为10,得到可根据字符串相似度检索的结构翻译记忆引擎,该引擎能够提供第一阶段结构检索服务;
最后,利用树结构相似度算法,作为第二阶段结构检索服务,找到与当前检索句法树最相似的句法树及两者之间的结构相似度信息,树结构相似度如下式所示:
其中,X表示当前检索语句的句法树,X′表示翻译记忆引擎在第一阶段检索返回的句法树。
4.如权利要求1所述的一种基于相似度感知的神经机器翻译方法,其特征在于,步骤2包括以下步骤:
首先,利用模板规则方法,在平行成分句法树对上,保留语义信息并得到平行模板句法树对;
然后,利用平行模板句法树对,构建模板翻译记忆库,并利用对应的模板相似度...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。