基于融合词性和位置信息的汉-越卷积神经机器翻译方法技术

技术编号：22295639 阅读：72 留言：0更新日期：2019-10-15 04:46

本发明专利技术涉及基于融合词性和位置信息的汉‑越卷积神经机器翻译方法，属于自然语言处理技术领域。本发明专利技术首先在收集的汉越双语平行语料的基础上，利用汉越词性标记工具对汉语和越南语进行词性信息标注，并在标记词性信息的双语语料基础上生成具有词性信息的词表，利用带词性的词表对汉越双语语料进行词与词性的联合编码与解码，然后通过门控线性单元融入词性信息，并采取多层卷积神经网络及不同大小卷积核进行翻译模型的训练，生成较好性能的汉‑越神经机器翻译模型再进行汉语越南语机器翻译。本发明专利技术有效的改善了汉越译文语序不一致的问题，能提升资源稀缺的汉‑越神经机器翻译性能。

Chinese-Vietnamese Convolutional Neural Machine Translation Based on Fusion of Part of Speech and Location Information

全部详细技术资料下载

【技术实现步骤摘要】
基于融合词性和位置信息的汉-越卷积神经机器翻译方法
本专利技术涉及基于融合词性和位置信息的汉-越卷积神经机器翻译方法，属于自然语言处理

技术介绍
机器翻译，又称为自动翻译，是利用计算机将一种自然语言转换为另一种自然语言的过程。随着机器翻译技术的迅速发展，机器翻译在大规模语料上取得了较好的效果，然而由于获取平行语料的成本较高，在资源稀缺型语言的机器翻译效果并不理想。为有效提升资源稀缺型语言的机器翻译性能，通常将词法知识、句法知识等外部知识融入到翻译模型中。因此，对资源稀缺的汉-越机器翻译，上述方法具有较高的科学与实用价值。目前，基于循环神经网络的汉-越机器翻译，是一种端到端的机器翻译方法，该方法生成的译文词序与越南语词序存在不一致问题(形容词、副词和动词等的修饰顺序不一致)，例如“我是张老师的学生。”，通过该方法得到的译文为“(我)là(是)Tru’o’ng(张)(老师)(的)trò(学生).”；该例句的正确译文为“(我)là(是)trò(学生)(的)(老师)Tru’o’ng(张).”。其原因是汉语与越南语之间存在语言结构的差异，即汉语和越南语修饰语与被修饰语的语序不同。传统的处理方法是利用词性标注工具对双语语料进行词性标记，之后通过BPE工具进行分词，最后以模型嵌入或与词向量拼接的方式将词性信息融入模型翻译中。然而，通过BPE工具处理的语料会使词与词性信息无法形成一一对应的关系，从而破坏了词与相应词性之间的对应关系。针对这个问题，提出一种融合词性信息的汉-越卷积神经机器翻译方法。
技术实现思路
本专利技术提供了基于融合词性和位置信息的汉-越卷积神经机...

【技术保护点】
1.基于融合词性和位置信息的汉‑越卷积神经机器翻译方法，其特征在于：所述基于融合词性和位置信息的汉‑越卷积神经机器翻译方法的具体步骤如下：Step1、收集汉越双语平行语料；Step2、利用汉越词性标记工具对汉语和越南语进行词性信息标注；Step3、在标记词性信息的双语语料基础上生成具有词性信息的词表；Step4、利用带词性信息的词表对汉越双语语料进行词与词性的联合编码与解码；Step5、通过门控线性单元融入词性信息及位置信息，并采取多层卷积神经网络及不同大小卷积核进行翻译模型的训练，生成汉‑越神经机器翻译模型进行汉语越南语机器翻译。

【技术特征摘要】
1.基于融合词性和位置信息的汉-越卷积神经机器翻译方法，其特征在于：所述基于融合词性和位置信息的汉-越卷积神经机器翻译方法的具体步骤如下：Step1、收集汉越双语平行语料；Step2、利用汉越词性标记工具对汉语和越南语进行词性信息标注；Step3、在标记词性信息的双语语料基础上生成具有词性信息的词表；Step4、利用带词性信息的词表对汉越双语语料进行词与词性的联合编码与解码；Step5、通过门控线性单元融入词性信息及位置信息，并采取多层卷积神经网络及不同大小卷积核进行翻译模型的训练，生成汉-越神经机器翻译模型进行汉语越南语机器翻译。2.根据权利要求1所述的基于融合词性和位置信息的汉-越卷积神经机器翻译方法，其特征在于：所述Step1中，在收集汉越双语平行语料时，采用网络爬虫requests技术或XPath爬取方法从相应网站爬取、整理得到规范格式的汉越双语平行语料，并从中随机抽取一定数量的训练集、开发集和测试集。3.根据权利要求1所述的基于融合词性和位置信息的汉-越卷积神经机器翻译方法，其特征在于：所述Step2中，在利用汉越词性标记工具对汉语和越南语进行词性信息标注时，采用结巴分词工具和基于SVMTooL的越南语词性标注工具分别对汉语和越南语进行词性信息的标记。4.根据权利要求1所述的基于融合词性和位置信息的汉-越卷积神经机器翻译方法，其特征在于：所述Step3中，在生成的词表中，包含不同词性信息的词，就会将词性信息作为词法关系特征融入到翻译模型中，以指导模型生成符合语言语法的目标语句；如“发明/v”与“发明/n”；在模型训练时，将“发明”的词性信息作为词法关系特征融入到翻译模型中，以指导模型生成符合语言语法的目标语句。5.根据权利要求1所述的基于融合词性和位置信息的汉-越卷积神经机器翻译方法，其特征在于：所述Step4中，编码器与解码器同样是共享块结构，并根据固定数量的输入元素来计算中间状态；在解码器中定义了第l块的输出表示为在编码器中也定义了第l块的输出表示为每一个块包含一个一维的卷积与一个非线性函数；针对不同数量的越南语音节，采用不同大小的卷积核，以获取不同程度的、完整的汉语与越南语的词法知识；如公式所示，分别设置...

【专利技术属性】
技术研发人员：余正涛，王文君，王振晗，高盛祥，何建雅琳，陈玮，黄于欣，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人