依存关系对齐组件、依存关系对齐训练方法、设备及介质技术

技术编号:23485103 阅读:16 留言:0更新日期:2020-03-10 12:40
本发明专利技术公开了一种依存关系对齐组件、依存关系对齐训练方法、设备及介质,所述的依存关系对齐组件包括:词对齐信息接收模块,用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息;依存树信息接收模块,用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树;对齐筛选模块,用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。利用本发明专利技术实施例可获得双语句法对齐的高质量树库。

Dependency alignment components, dependency alignment training methods, devices and media

【技术实现步骤摘要】
依存关系对齐组件、依存关系对齐训练方法、设备及介质
本专利技术涉及计算机
,尤其是涉及一种依存关系对齐组件、依存关系对齐训练方法及其装置、设备和存储介质。
技术介绍
一般认为,自然语言处理(NaturalLanguageProcessing,NLP)指的是借助计算机工具开发能够理解人类语言的应用程序或服务,容易理解的例子有诸如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词、生成语法正确的完整句子和段落,等等。已有的NLP工具绝大多数属于浅层解析工具,致使大量的语料中的深层信息不能得到很好的挖掘。举例来讲,传统的解决方案是由语言学专家制定特定的语义表示框架,其中需标注大量的数据,为了解决特定场景的问题,还需训练相应的模型,并采用神经网络学习每一个词到其他词的依存关系,从而构建语义依存图。但是,由于这种语义表示框架灵活性较差,其无法实现对更多自然语言特征的高效利用,适用的场景有限,应用面较窄。
技术实现思路
有鉴于此,本专利技术提出一种依存关系对齐组件、依存关系对齐训练方法及其装置、设备和存储介质,用以解决目前语义表示框架灵活性差的问题。第一方面,本专利技术提供一种依存关系对齐组件,其包括:词对齐信息接收模块,用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息;依存树信息接收模块,用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树;对齐筛选模块,用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。第二方面,本专利技术还提供一种多语言依存关系对齐训练方法,所述方法包括:步骤一,基于多个双语句对,对预设的机器翻译系统和依存句法分析组件进行训练,通过所述依存关系对齐组件得到多个双语句对分别对应的得分最高的翻译结果和句法依存树对;步骤二,通过所述依存关系对齐组件,在得到的多个得分最高的翻译结果和句法依存树对中,将符合筛选条件的翻译结果和/或句法依存树对加入训练集;步骤三,基于所述训练集,返回步骤一,以更新所述机器翻译系统、所述依存句法分析组件和所述训练集。第三方面,本专利技术还提供一种多语言依存关系对齐训练装置,所述装置包括:训练处理模块,用于基于多个双语句对,对预设的机器翻译系统和依存句法分析组件进行训练,所述依存关系对齐组件,用于得到多个双语句对分别对应的得分最高的翻译结果和句法依存树对;训练集处理模块,用于在得到的多个得分最高的翻译结果和句法依存树对中,将符合筛选条件的翻译结果和/或句法依存树对加入训练集;迭代处理模块,用于基于所述训练集,触发所述模型训练模块,以更新所述机器翻译系统、所述依存句法分析组件和所述训练集。第四方面,本专利技术还提供一种多语言依存关系对齐训练设备,包括:存储器,用于存储程序;处理器,用于运行所述存储器中存储的所述程序,以执行如上所述的多语言依存关系对齐训练方法。第五方面,本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如上所述的多语言依存关系对齐训练方法。相对于以往的语义表示框架需标注大量数据,本专利技术实施例通过神经网络机器翻译系统以及神经网络依存句法分析组件获得多个最佳Nbest结果,利用本专利技术构建的依存关系对齐组件可选出最优的词对齐句对和句法依存树对,通过多次迭代获得双语句法对齐的高质量树库。附图说明图1为本专利技术实施例的依存关系对齐组件的结构框图。图2为本专利技术实施例的多语言依存关系对齐训练方法的流程框图。图3为本专利技术实施例的多语言依存关系对齐训练方法的处理过程示意图。图4为本专利技术实施例的设备的硬件结构示意图。具体实施方式以下结合附图及实施例,对本专利技术进行详细描述。应理解,所描述的具体实施例仅用于解释本专利技术,而并不用于限定本专利技术。文中的诸如第一、第二等用语仅用来对一个实体(或操作)与另一个实体(或操作)进行区分,而不表示这些实体(或操作)之间存在任何关系或顺序;另外,文中的诸如上、下、左、右、前、后等表示方向或方位的用语,仅表示相对的方向或方位,而非绝对的方向或方位。在没有额外限制的情况下,由语句“包括”限定的要素,不排除在包括所述要素的过程、方法、物品或者设备中还存在其他要素。本专利技术的目的之一在于基于神经网络机器翻译系统以及神经网络依存句法分析组件返回的多个最佳Nbest结果(有时也记作nbest),利用本专利技术构建的依存关系对齐组件选出最优的句法对齐句对。本专利技术的实施例可以用于提取多语知识图谱、扩增训练集、对数据质量打分等应用场景。以下对本专利技术的实施方式进行详细描述。<依存关系对齐组件>在本专利技术中,使用依存关系对齐组件对不同翻译结果的词对齐关系进行打分,该依存关系对齐组件还可以对不同句法依存树的对齐关系进行打分。在本专利技术的一种实施方式中,所述的依存关系对齐组件接收双语句对(例如互译的A语言句子和B语言句子)的多个翻译结果以及对应的多个词对齐关系信息,然后基于设定的算法对该多个翻译结果进行打分筛选。在本专利技术的另一种实施方式中,所述的依存关系对齐组件接收双语句对(例如互译的A语言句子和B语言句子)的多个句法依存树,然后基于特定的算法对该多个句法依存树进行打分。为了清楚地说明本专利技术的依存关系对齐组件的打分方式,以下分别对上述两种实施方式进行详细描述。<翻译结果和词对齐关系信息打分>本专利技术中,所述的多个翻译结果指的是对双语句对中的两个平行语句分别进行翻译所得到的翻译结果。仍然以互译的A语言句子和B语言句子为例,从A语言到B语言可称为正向翻译,从B语言到A语言可称为反向翻译,利用神经网络机器翻译系统NMT进行翻译。正向翻译时,首先将A语言句子输入NMT系统,将其翻译到B语言,由于语言具体表达方式具有多样性,NMT系统可输出多个不同的B语言译文句子,则多个B语言译文句子分别与A语言原文句子组合,可形成多个互译的双语句对。同理,反向翻译时,将B语言句子输入NMT系统,将其翻译到A语言,NMT系统可输出多个不同的A语言译文句子,则多个A语言译文句子分别与B语言原文句子组合,亦可形成多个互译的双语句对。上述双方向的多个互译的双语句对均可作为本专利技术依存关系对齐组件的输入。并且,NMT系统除可以输出多个翻译结果之外,还可以输出翻译结果对应的词对齐关系信息,这些词对齐关系信息也是本专利技术依存关系对齐组件的输入,打分时,依存关系对齐组件根据词对齐关系信息的内容对翻译结果的词对齐情况进行打分。在本专利技术的一种实施方式中,NMT系统利用注意力Attention信息作为对齐依据,将正向翻译和反向翻译过程中的多个Attention矩阵作为词对齐关系信息输出。具体地,正向翻译时,NMT系统将A语言句子翻译为B语言过程中的N个最佳Nbest(有时也记作nbest)翻译词对齐概率矩阵P(Wa→本文档来自技高网...

【技术保护点】
1.一种依存关系对齐组件,其特征在于,其包括:/n词对齐信息接收模块,用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息;/n依存树信息接收模块,用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树;/n对齐筛选模块,用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。/n

【技术特征摘要】
1.一种依存关系对齐组件,其特征在于,其包括:
词对齐信息接收模块,用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息;
依存树信息接收模块,用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树;
对齐筛选模块,用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。


2.根据权利要求1所述的依存关系对齐组件,其特征在于,所述对齐筛选模块包括:
词对齐打分子模块,用于基于所述多个词对齐关系信息对所述多个翻译结果打分;
树对齐打分子模块,用于基于句法依存树的相似度对所述多个句法依存树打分。


3.根据权利要求1所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件还包括:
词对齐相似度处理模块,用于基于所述多个词对齐关系信息得到针对所述多个翻译结果的双向翻译词对齐相似度。


4.根据权利要求3所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件还包括树到树预测模块,
所述树到树预测模块用于基于所述双向翻译词对齐相似度以及所述第一语言语料对应的第一句法依存树,预测第二句法依存树;
所述树到树预测模块还用于基于所述双向翻译词对齐相似度以及所述第二语言语料对应的第二句法依存树,预测第一句法依存树。


5.根据权利要求1所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件还包括:
句法到语义转换模块,用于将目标句法依存树转换为对应的三元组。


6.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息来自预设的机器翻译系统。


7.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述第一语言语料和所述第二语言语料各自的多个句法依存树来自预设的依存句法分析组件。


8.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述第一语言语料和所述第二语言语料为互译的双语语料。


9.根据权利要求1-5中任一所述的依存关系对齐组件,其特征在于,所述依存关系对齐组件基于神经网络实现。


10.根据权利要求1所述的依存关系对齐组件,其特征在于,所述多个翻译结果包括:
由将所述第一语言语料翻译为第二语言所得到的原文文本和多个不同的译文文本形成的多个双语句对;以及
由将所述第二语言语料翻译为第一语言所得到的原文文本和多个不同的译文文本形成的多个双语句对。


11.根据权利要求10所述的依存关系对齐组件,其特征在于,所述多个词对齐关系信息包括:
将所述第一语言语料翻译为第二语言过程中的正向N个最佳Nbest翻译词对齐概率矩阵;以及
将所述第二语言语料翻译为第一语言过程中的反向Nbest翻译词对齐概率矩阵。


12.根据权利要求11所述的依存关系对齐组件,其特征在于,所述词对齐打分子模块包括:
词对齐相似度计算单元,用于计算所述正向Nbest翻译词对齐概率矩阵与所述反向Nbest翻译词对齐概率矩阵的相似度,作为双向翻译词对齐相似度;
词对齐相似度打分单元,用于对多个双向翻译词对齐相似度打分,相似度高者对应的得分高。


13.根据权利要求11所述的依存关系对齐组件,其特征在于,所述正向Nbest翻译词对齐概率矩阵采用神经网络机器翻译NMT中将所述第一语言语料翻译为第二语言过程中的多个注意力Attention矩阵;所述反向Nbest翻译词对齐概率矩阵采用NMT中将所述第二语言语料翻译为第一语言过程中的多个注意力Attention矩阵。


14.根据权利要求1所述的依存关系对齐组件,其特征在于,所述多个词对齐关系信息包括:使用快速对齐fastalign技术对所述第一语言语料和第二语言语料分别进行处理所获取的对齐信息。


15.根据权利要求1所述的依存关系对齐组件,其特征在于,所述对齐筛选模块包括:
依存树相似度处理子模块,用于基于第一语言语料对应的N个最佳Nbest第一句法依存树,以及第二语言语料对应的Nbest第二句法依存树,确定多个依存树相似度;
依存树对齐相似度打分单元,用于对多个依存树相似度打分,相似度高者对应的得分高。


16.根据权利要求15所述的依存关系对齐组件,其特征在于,所述依存树相似度处理子模块根据至少两个依存树的树形结构的关系来确定所述至少两个依存树的依存树相似度。


17.根据权利要求16所述的依存关系对齐组件,其特征在于,所述树形结构的关系包括第一句法依存树的树形结构与第二句法依存树的树形结构相同。


18.根据权利要求16所述的依存关系对齐组件,其特征在于,所述树形结构的关系包括第一句法依存树的树形结构包含第二句法依存树的树形结构或者第二句法依存树的树形结构包含第一句法依存树的树形结构。


19.根据权利要求16所述的依存关系对齐组件,其特征在于,所述树形结构的关系包括第一句法依存树的树形结构与第二句法依存树的树形结构属于高频树形结构对。


20.一种多语言依存关系对齐训练方法,其特征在于,所述方法包括:
步骤一,基于多个双语句对,对预设的机器翻译系统和依存句法分析组件进行训练,通过所述依存关系对齐组件得到多个双语句对分别对应的得分最高的翻译结果和句法依存树对;
步骤二,通过所述依存关系对齐组件,在得到的多个得分最高的翻译结果和句法依存树对中,将符合筛选条件的翻译结果和/或句法依存树对加入训练集;
步骤三,基于所述训练集,返回步骤一,以更新所述机器翻译系统、所述依存句法分析组件和所述训练集。


21.根据权利要求20所述的方法,其特征在于,所述训练集包括符合所述筛选条件的所述翻译结果对应的双语句对和/或所述句法依存树对对应的双语树库。


22.根据权利要求20所述的方法,其特征在于,训练时,对所述多个双语句对执行以下迭代处理:
1a,通过所述机器翻译系统获得当前双语句对中第一语言语料和第二语言语料各自的多个翻译结果以及对...

【专利技术属性】
技术研发人员:李博赵宇骆卫华
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1