依存关系对齐组件、依存关系对齐训练方法、设备及介质技术

技术编号：23485103 阅读：16 留言：0更新日期：2020-03-10 12:40

本发明专利技术公开了一种依存关系对齐组件、依存关系对齐训练方法、设备及介质，所述的依存关系对齐组件包括：词对齐信息接收模块，用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息；依存树信息接收模块，用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树；对齐筛选模块，用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。利用本发明专利技术实施例可获得双语句法对齐的高质量树库。

Dependency alignment components, dependency alignment training methods, devices and media

全部详细技术资料下载

【技术实现步骤摘要】
依存关系对齐组件、依存关系对齐训练方法、设备及介质
本专利技术涉及计算机
，尤其是涉及一种依存关系对齐组件、依存关系对齐训练方法及其装置、设备和存储介质。
技术介绍
一般认为，自然语言处理(NaturalLanguageProcessing，NLP)指的是借助计算机工具开发能够理解人类语言的应用程序或服务，容易理解的例子有诸如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词、生成语法正确的完整句子和段落，等等。已有的NLP工具绝大多数属于浅层解析工具，致使大量的语料中的深层信息不能得到很好的挖掘。举例来讲，传统的解决方案是由语言学专家制定特定的语义表示框架，其中需标注大量的数据，为了解决特定场景的问题，还需训练相应的模型，并采用神经网络学习每一个词到其他词的依存关系，从而构建语义依存图。但是，由于这种语义表示框架灵活性较差，其无法实现对更多自然语言特征的高效利用，适用的场景有限，应用面较窄。
技术实现思路
有鉴于此，本专利技术提出一种依存关系对齐组件、依存关系对齐训练方法及其装置、设备和存储介质，用以解决目前语义表示框架灵活性差的问题。第一方面，本专利技术提供一种依存关系对齐组件，其包括：词对齐信息接收模块，用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息；依存树信息接收模块，用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树；对齐筛选模块，用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度...

【技术保护点】
1.一种依存关系对齐组件，其特征在于，其包括：/n词对齐信息接收模块，用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息；/n依存树信息接收模块，用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树；/n对齐筛选模块，用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。/n

【技术特征摘要】
1.一种依存关系对齐组件，其特征在于，其包括：
词对齐信息接收模块，用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息；
依存树信息接收模块，用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树；
对齐筛选模块，用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。

2.根据权利要求1所述的依存关系对齐组件，其特征在于，所述对齐筛选模块包括：
词对齐打分子模块，用于基于所述多个词对齐关系信息对所述多个翻译结果打分；
树对齐打分子模块，用于基于句法依存树的相似度对所述多个句法依存树打分。

3.根据权利要求1所述的依存关系对齐组件，其特征在于，所述依存关系对齐组件还包括：
词对齐相似度处理模块，用于基于所述多个词对齐关系信息得到针对所述多个翻译结果的双向翻译词对齐相似度。

4.根据权利要求3所述的依存关系对齐组件，其特征在于，所述依存关系对齐组件还包括树到树预测模块，
所述树到树预测模块用于基于所述双向翻译词对齐相似度以及所述第一语言语料对应的第一句法依存树，预测第二句法依存树；
所述树到树预测模块还用于基于所述双向翻译词对齐相似度以及所述第二语言语料对应的第二句法依存树，预测第一句法依存树。

5.根据权利要求1所述的依存关系对齐组件，其特征在于，所述依存关系对齐组件还包括：
句法到语义转换模块，用于将目标句法依存树转换为对应的三元组。

6.根据权利要求1-5中任一所述的依存关系对齐组件，其特征在于，所述第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息来自预设的机器翻译系统。

7.根据权利要求1-5中任一所述的依存关系对齐组件，其特征在于，所述第一语言语料和所述第二语言语料各自的多个句法依存树来自预设的依存句法分析组件。

8.根据权利要求1-5中任一所述的依存关系对齐组件，其特征在于，所述第一语言语料和所述第二语言语料为互译的双语语料。

9.根据权利要求1-5中任一所述的依存关系对齐组件，其特征在于，所述依存关系对齐组件基于神经网络实现。

10.根据权利要求1所述的依存关系对齐组件，其特征在于，所述多个翻译结果包括：
由将所述第一语言语料翻译为第二语言所得到的原文文本和多个不同的译文文本形成的多个双语句对；以及
由将所述第二语言语料翻译为第一语言所得到的原文文本和多个不同的译文文本形成的多个双语句对。

11.根据权利要求10所述的依存关系对齐组件，其特征在于，所述多个词对齐关系信息包括：
将所述第一语言语料翻译为第二语言过程中的正向N个最佳Nbest翻译词对齐概率矩阵；以及
将所述第二语言语料翻译为第一语言过程中的反向Nbest翻译词对齐概率矩阵。

12.根据权利要求11所述的依存关系对齐组件，其特征在于，所述词对齐打分子模块包括：
词对齐相似度计算单元，用于计算所述正向Nbest翻译词对齐概率矩阵与所述反向Nbest翻译词对齐概率矩阵的相似度，作为双向翻译词对齐相似度；
词对齐相似度打分单元，用于对多个双向翻译词对齐相似度打分，相似度高者对应的得分高。

13.根据权利要求11所述的依存关系对齐组件，其特征在于，所述正向Nbest翻译词对齐概率矩阵采用神经网络机器翻译NMT中将所述第一语言语料翻译为第二语言过程中的多个注意力Attention矩阵；所述反向Nbest翻译词对齐概率矩阵采用NMT中将所述第二语言语料翻译为第一语言过程中的多个注意力Attention矩阵。

14.根据权利要求1所述的依存关系对齐组件，其特征在于，所述多个词对齐关系信息包括：使用快速对齐fastalign技术对所述第一语言语料和第二语言语料分别进行处理所获取的对齐信息。

15.根据权利要求1所述的依存关系对齐组件，其特征在于，所述对齐筛选模块包括：
依存树相似度处理子模块，用于基于第一语言语料对应的N个最佳Nbest第一句法依存树，以及第二语言语料对应的Nbest第二句法依存树，确定多个依存树相似度；
依存树对齐相似度打分单元，用于对多个依存树相似度打分，相似度高者对应的得分高。

16.根据权利要求15所述的依存关系对齐组件，其特征在于，所述依存树相似度处理子模块根据至少两个依存树的树形结构的关系来确定所述至少两个依存树的依存树相似度。

17.根据权利要求16所述的依存关系对齐组件，其特征在于，所述树形结构的关系包括第一句法依存树的树形结构与第二句法依存树的树形结构相同。

18.根据权利要求16所述的依存关系对齐组件，其特征在于，所述树形结构的关系包括第一句法依存树的树形结构包含第二句法依存树的树形结构或者第二句法依存树的树形结构包含第一句法依存树的树形结构。

19.根据权利要求16所述的依存关系对齐组件，其特征在于，所述树形结构的关系包括第一句法依存树的树形结构与第二句法依存树的树形结构属于高频树形结构对。

20.一种多语言依存关系对齐训练方法，其特征在于，所述方法包括：
步骤一，基于多个双语句对，对预设的机器翻译系统和依存句法分析组件进行训练，通过所述依存关系对齐组件得到多个双语句对分别对应的得分最高的翻译结果和句法依存树对；
步骤二，通过所述依存关系对齐组件，在得到的多个得分最高的翻译结果和句法依存树对中，将符合筛选条件的翻译结果和/或句法依存树对加入训练集；
步骤三，基于所述训练集，返回步骤一，以更新所述机器翻译系统、所述依存句法分析组件和所述训练集。

21.根据权利要求20所述的方法，其特征在于，所述训练集包括符合所述筛选条件的所述翻译结果对应的双语句对和/或所述句法依存树对对应的双语树库。

22.根据权利要求20所述的方法，其特征在于，训练时，对所述多个双语句对执行以下迭代处理：
1a，通过所述机器翻译系统获得当前双语句对中第一语言语料和第二语言语料各自的多个翻译结果以及对...

【专利技术属性】
技术研发人员：李博，赵宇，骆卫华，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人