基于层次短语模型的译文词序概率确定方法及装置制造方法及图纸

技术编号:8735104 阅读:174 留言:0更新日期:2013-05-26 11:43
本发明专利技术实施例公开了一种基于层次短语模型的译文词序概率确定方法及装置。该方法包括:确定源语句的候选翻译模式;针对每一候选翻译模式提取用于表征词序概率的特征量;根据预先获得的模型训练结果确定所述特征量的词序概率;根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;根据所述候选翻译模式中词序概率的最大值,确定所述源语句的译文词序概率。本发明专利技术实施例通过在候选翻译模式中提取表征词序概率的特征量,进而确定源语句的译文词序概率,增加对调序过程的控制,提高了翻译模式选择的正确性,减少了调序错误的出现,由此改善了将源语句转换为目标语言数据处理过程的性能。

【技术实现步骤摘要】

本专利技术一般地涉及数据处理的
,尤其是一种基于层次短语模型的译文词序概率确定方法及装置
技术介绍
层次短语模型(Hierarchical Phrase-based Model)是在将源语言转换为目标语言的数据处理过程中比较成熟的模型,该模型具有良好的短语调序能力,性能要好于传统的基于短语的模型(Phrase-based Model)。层次短语模型使用的翻译模式主要包括两种:包含非终结符X的模式和不包含X的模式。层次短语模型通过非终结符来扩展译文,通过源语言与目标语言之间的词对应关系来调序。如图1所示,演示了一实例中层次短语模型的转换过程,例如,翻译过程,通过层次短语模型的一翻译模式,交换X1、X2的位置起到了调序的作用,从而得到了正确的源语言与目标语言之间的转换结果,在该例中即为翻译结果。虽然层次短语模型有着很强的调序能力,但是现有的翻译过程中,由于该模型缺少对调序过程的控制,无法获得源语句的译文词序概率,容易导致翻译模式选择错误,进而造成一些调序错误频繁地出现。如图2所示,源语言本该使用模式〈XI氨水溶液X2,Xl ammonia solution X2>按顺序翻译,由于选择了错误的翻译模式〈XI氨水溶液X2, X2Xlammonia solution〉,将X2调序到最前面,导致翻译结果错误。
技术实现思路
有鉴于此,本专利技术实施例提供了一种基于层次短语模型的译文词序概率确定方法及装置,能够获得源语句的译文词序概率,进而可以增加翻译模式选择的正确性,提高从源语言到目标语言的转换过程的正确率,由此改善数据处理性能。根据本专利技术实施例的一个方面,提供一种基于层次短语模型的译文词序概率确定方法,包括:确定源语句的候选翻译模式;针对每一候选翻译模式提取用于表征词序概率的特征量;根据预先获得的模型训练结果确定所述特征量的词序概率;根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;根据所述候选翻译模式中词序概率的最大值,确定所述源语句的译文词序概率。根据本专利技术实施例的再一个方面,提供一种基于层次短语模型的译文词序概率确定装置,包括:第一确定单元,配置为确定源语句的候选翻译模式;特征量提取单元,配置为针对每一候选翻译模式提取用于表征词序概率的特征量;第二确定单元,配置为根据预先获得的模型训练结果确定所述特征量的词序概率;第三确定单元,配置为根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;概率确定单元,配置为根据所述候选翻译模式中词序概率的最大值,确定所述源语句的译文词序概率。另外,根据本专利技术的另一方面,还提供了 一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述基于层次短语模型的译文词序概率确定方法。此外,根据本专利技术的再一方面,还提供了 一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述基于层次短语模型的译文词序概率确定方法。根据本专利技术实施例的上述方法,通过在候选翻译模式中提取表征词序概率的特征量,进而确定源语句的译文词序概率,增加对调序过程的控制,提高了翻译模式选择的正确性,减少了调序错误的出现,从而提升源语句与目标语句之间进行转换这种数据处理过程的正确率,改善数据处理性能。在下面的说明书部分中给出本专利技术实施例的其他方面,其中,详细说明用于充分地公开本专利技术实施例的优选实施例,而不对其施加限定。附图说明下面结合具体的实施例,并参照附图,对本专利技术实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。图1是示出现有技术中基于层次短语模型的翻译过程示意图;图2是示出现有技术中翻译模式选择错误的示意图;图3是示出作为本专利技术实施例提供的一种基于层次短语模型的译文词序概率确定方法的流程图;图4是示出作为本专利技术实施例提供的一源语句的候选翻译模式示意图;图5是示出作为本专利技术实施例提供一个翻译对的示意图;图6是示出作为本专利技术实施例提供模型训练结果的获得方法流程图;图7是示出作为本专利技术实施例提供的确定源语句译文词序概率的方法流程图;图8是示出作为本专利技术实施例提供的未知译文的修正概率的计算方法流程图;图9a是示出作为本专利技术实施例提供的实例中训练语句的示意图;图9b是示出作为图4所示的源语句中未知译文的一个候选翻译模式示意图;图10是示出作为本专利技术实施例提供的一种基于层次短语模型的译文词序概率确定装置的结构示意图;图11是示出作为本专利技术实施例提供的模型训练单元的结构示意图;图12是示出作为本专利技术实施例提供的概率确定单元的结构示意图;图13是示出作为本专利技术实施例提供的第二计算子单元的结构示意图;图14是示出作为本专利技术的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。具体实施例方式下面参照附图来说明本专利技术的实施例。本专利技术人在实现本专利技术的过程中发现,在利用现有技术的方法确定从源语句到目标语句的数据转换过程中的翻译模式时,至少存在以下问题:层次短语模型中包含多种翻译模式,在确定适用于某一源语句的翻译模式时,现有技术中可以基于该源语句选择8个特征,例如语言模型、词汇惩罚等,根据该8个特征及各自的权重,可以衡量针对该源语句的各候选翻译模式中,哪一候选翻译模式的正确率最高,进而确定适用于该源语句的翻译模式,执行翻译。然而,上述用于确定翻译模式的8个特征中缺少语言学知识的约束,不包含可以确定该源语句译文词序概率的特征,也即不能衡量一个模式的词序到底是不是正确的,因此,在确定源语句的翻译模式时,容易导致翻译模式选择错误,进而导致如图2所示的翻译结果错误。因此,本专利技术实施例针对这个问题,提供了相应的解决方法。具体的,参见图3,本专利技术实施例提供了一种基于层次短语模型的译文词序概率确定方法,包括:步骤301:确定源语句的候选翻译模式。本步骤中首先根据层次短语模型中规定的翻译模式,列出该源语句所有可能的候选翻译模式。例如图4所示,源语句包含候选翻译模式一和候选翻译模式二。步骤302:针对每一候选翻译模式提取用于表征词序概率的特征量。其中,用于表征词序概率的特征量可以是指满足一定的词性、对齐关系,或者语言规则的特征量。在具体实施例中,该表征词序概率的特征量可以是指满足一定约束条件(第一约束条件)的特征量,例如,在源语句中wi和wj必须都要有译文,其中wi (wj)可以代表一个字或一个词,或一个短语,甚至一个标点符号等和wj要在一个翻译对中,翻译对表示:如果一段汉语对应一段英语的译文,汉英之间符合词对一致性齐约束,即所有的汉语只能对应到,反之亦然,则与构成一个翻译对。如图5中虚线框内为一个翻译对;且#和wj之间的距离要小于等于预设阈值T,该阈值T可以选择2、3等,其中,由于在句中wi和wj之间可能间隔有词或者短语或者标点符号,wi和wj之间的距离是指wi和wj在句中的位置之间的距离,例如T = 3时,wi和wj之间间隔的词或者短语或者标点符号不能超过2个。可替选地,该第一约束条件还可以是:wi和Wj必须都要有译文(同上述约束中的Wi和wj);如果Wi或wj为助词“的”,贝IJ Wi本文档来自技高网...

【技术保护点】
一种基于层次短语模型的译文词序概率确定方法,包括:确定源语句的候选翻译模式;针对每一候选翻译模式提取用于表征词序概率的特征量;根据预先获得的模型训练结果确定所述特征量的词序概率;根据所述特征量的词序概率,确定所述每一候选翻译模式的词序概率;根据所述候选翻译模式中词序概率的最大值,确定所述源语句的译文词序概率。

【技术特征摘要】

【专利技术属性】
技术研发人员:郑仲光孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1