获得语言模型概率及构建语言模型的方法和装置制造方法及图纸

技术编号:5193843 阅读:241 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种为句子获得语言模型概率的方法和装置、构建语言模型的方法和装置以及基于语料库的机器翻译方法和系统。该为句子获得语言模型概率的方法,包括:通过对于句子中的各个单词,尝试将其与后面的单词组成通常被作为一个词使用的组合词,而确定与该句子的语言模型概率的计算有关的各个词及其概率;以及基于所确定的与该句子的语言模型概率的计算有关的各个词及其概率,获得该句子的语言模型概率。在本发明专利技术中,通过尝试将句子中的各个单词与其后面的单词组合,能够确保在语言模型概率的计算中复合词不被拆分,从而为句子获得准确的语言模型概率,准确地体现句子的质量。

【技术实现步骤摘要】

本专利技术涉及信息处理技术,具体地,涉及为句子获得语言模型概率的方法和装 置、构建语言模型的方法和装置以及应用了这些方法和装置的基于语料库的机器翻译方 法和系统。
技术介绍
统计机器翻译是主要的基于语料库的机器自动翻译技术之一。在该技术中,通 常会用到多种概率模型。语言模型是统计机器翻译技术中最主要的概率模型之一。所谓 语言模型,是用于为一个句子(或词序列)计算出一个概率值,以表明该句子(或词序 列)的流利度的模型。也就是说,语言模型用于为一个句子(或词序列)计算出能够表 示该句子(或词序列)在所属语言中的出现概率、即是否常用的概率值。在统计机器翻译技术中,通过利用语言模型来计算候选译文的出现概率(以下 称为“语言模型概率”),可以帮助译文选择。因为语言模型概率越高,表明该译文越 常用,越符合所属语言的习惯,这样,通过使用语言模型概率评价候选译文的流利度, 能够确保译文生成质量。在现有的统计机器翻译技术中,语言模型通常利用马尔科夫模型从单语文本语 料中训练得到。根据马尔可夫模型,对于一个包含N个词的句子E=丨e2,…,eN}, 按照下式(1)来获得其语言模型概率ρ (E)NP(E) = Piei ,e2,…’ ,e,^ ) (1)(=1其中,p(ei|ei,e2,…,ei_2,ei_i)是单词ei的概率,该概率表示单词4出现在前 面的i-Ι个单词e1; e2,…,e,_2,之后的概率。但是,由于在根据上式(1)计算句子的语言模型概率时的训练数据稀疏的原 因,在实际的计算过程中,通常以马尔科夫模型为理论基础,使用平滑的ngram模型来 近似地得到语言模型概率。根据平滑的ngram模型,对于上述包含N个词的句子E = {e1 e2,…,eN},按照下式(2)来近似地获得其语言模型概率ρ (E):Np(E) Y[ p{et , ’…’ ,^1) (2)/=1其中,每个单词&的概率p(ei|ei_n+1,ei_n+2,…,ei_2,不再依赖于出现在ei 前面的所有i-1个单词,而仅是依赖于出现在其前面的n-1个单词。一般地,η取2 5。通常,单词组“ei_n+1,ei_n+2,…,,eM, e,”称为一个ngram。在此情况下,概 率 Pte1Ie1 -n+1, ei-n+2 ‘ ···' ei-2' )也称为是 ngram n+1,n+2,...,q{-2,C^1,Qi 白勺 概率。下面以具体例子来详细描述根据平滑的ngram模型计算语言模型概率的过程。例如,假定待计算的句子是this is your seat.,并且设定η = 3,则根据上 式(2),该句子的语言模型概率由组成该句子的5个单词“this”、“is”、your、“seat” 禾口 “.” 的各自的概率 ρ (this)、p(is|this)、ρ (your|this, is)、p(seat|is, your)和 p(.|your, seat)的乘积得到,即ρ (this is your seat.) = ρ (this) Xp(is|this) Xρ (your|this, is) Xp (seat|is, your) Xp (.Iyour, seat)其中,概率p(is|this)表示“is”出现在“this”之后的概率 ,该概率可以预先 通过从单语文本语料中统计“is”和“this is”的出现频率而计算得到。在此,单词组this, is” 称为一个 2-gram(或 bigram)。此外,概率 ρ (your|this,is)表示 “your” 出 现在“this is”之后的概率,同样,该概率也可以预先通过从单语文本语料中统计“this is your”和“this is”的出现频率而计算得到。在此,单词组this, is, your”称为一 个 3-gram (或 trigram)。对于才既率 ρ (this)、p(seat|is, your)禾口 ρ (.|your, seat)而言,也 是同样的。从以上可以看出,在基于平滑的ngnim模型构建用于为句子获得语言模型概率 的语言模型(后面称为“标准语言模型”)时,由于训练语料中的词汇已经是确定的了, 所以,语言模型中所训练出的ngram的词汇也是确定的。从而在利用所构建的语言模型 为句子获得语言模型概率时,只能从语言模型中确定的ngram中查找相应的ngram及其概 率,来直接用于计算。这样,就会存在句子中的词序列有可能与语言模型中使用的词汇表不一致的问 题。例如,复合词通常被看作一个词,但是统计机器翻译系统在根据翻译模型为句子生 成候选译文时,有可能会将一个复合词分离地翻译为几个单独的词。另一方面,由于语 言模型的词汇表并不会将一个复合词看作是由几个单独的词组成的,所以语言模型中并 不会包含这几个单独的词的ngram的概率。这样,统计机器翻译系统可能会转而为该复 合词生成一个不准确、但出现概率较高的对应译文。从而,导致所生成的译文的流利度 和忠实度下降。这种复合词不一致的问题,对于汉语、日语等需要划分单词的语言来说,是一 种常见的问题。这种问题,主要是因为机器翻译系统在翻译过程中的分词结果的不一致 而造成的。下面用具体的例子来进行说明。假设待翻译的句子是“This is my airplane ticket.”。采用基于短语的统计机器翻译系统。假设在该统计机器翻译系统的双语短语表中,与上面的待翻译句子匹配的双语 短语如表1所示。表 1This is my airplane ticket .这是我的 飞机___ 的票也就是说,对于上面的待翻译句子“This is my airplane ticket.”,统计机器翻译 系统只能够从表1所列出的短语中组合得到其译文。但是,由于在上述双语短语表中, 对于复合词“飞机票”,不包含双语短语“airplane ticket|飞机票”,而仅包含“airplanej 飞机”和“ticket|票,的票”,因此,基于该短语表,统计机器翻译系统只能够将“airplane ticket”拆开,通过合并两个短语“airplane|飞机”和“ticket|票,的票”来得至Ij “airplane ticket” 的对应译文。这样,根 据表1,统计机器翻译系统可能得到的译文包括Tl 这是我的飞机票。T2 这是我的飞机的票。基于上式⑵,译文Tl的语言模型概率的计算可以表示为ρ (这是我的飞机票。)=ρ(这)Xp(是I这)Xp(我I这,是)Xp(的I是,我)Xp(飞机I我,的)Xp(票 I的,飞机)Xp(。I飞机,票)译文T2的语言模型概率的计算可以表示为ρ (这是我的飞机的票。)=ρ(这)Xp(是I这)Xp(我I这,是)Xp(的I是,我)Xp(飞机I我,的)Xp(的 I的,飞机)Xp(票ι飞机,的)Χρ(。ι的,票)虽然译文Tl的质量优于T2,但是对于译文Tl而言,复合词“飞机票”是由 “飞机”和“票”组合而成的词序列(表示为“(飞机)(票)”),而“飞机票”在标准语言模型的词汇表中是一个词,而并不会看作是由“飞机”和“票”组合而成的词序 列,所以在标准语言模型的词汇表中,并不会统计出包含了该词序列“(飞机)(票)”的 ngni本文档来自技高网...

【技术保护点】
一种为句子获得语言模型概率的方法,包括:通过对于句子中的各个单词,尝试将其与后面的单词组成通常被作为一个词使用的组合词,而确定与该句子的语言模型概率的计算有关的各个词及其概率;以及基于所确定的与该句子的语言模型概率的计算有关的各个词及其概率,获得该句子的语言模型概率。

【技术特征摘要】
1.一种为句子获得语言模型概率的方法,包括通过对于句子中的各个单词,尝试将其与后面的单词组成通常被作为一个词使用的 组合词,而确定与该句子的语言模型概率的计算有关的各个词及其概率;以及基于所确定的与该句子的语言模型概率的计算有关的各个词及其概率,获得该句子 的语言模型概率。2.—种构建语言模型的方法,包括构建语言模型,该语言模型通过对于句子中的各个单词,尝试将其与后面的单词组成通常被作为一个词使用的 组合词,而确定与该句子的语言模型概率的计算有关的各个词及其概率,进而基于所确定的与该句子的语言模型概率的计算有关的各个词及其概率,获得该句子 的语言模型概率。3.根据权利要求1或2所述的方法,其中上述确定与该句子的语言模型概率的计算有 关的各个词及其概率的步骤进一步包括基于预先从单语文本语料中统计出的多个单词组及其概率,对于上述句子中的各个 单词,确定该单词以及该单词与其后面的单词所组成的所有可能的组合词中概率最高的 那一个词,以将该词及其概率作为与该句子的语言模型概率的计算有关的词及其概率。4.根据权利要求3所述的方法,其中在对于上述句子中的各个单词确定了该单词及其 所有可能的组合词中概率最高的那一个词之后,该所确定的词后面的单词将成为下一个 要进行与该句子的语言模型概率的计算有关的词及其概率的确定的当前单词。5.根据权利要求3所述的方法,其中单词的概率是该单词与句子中该单词前面的单词 所组成的单词组的概率,组合词的概率是该组合词与句子中该组合词前面的单词所组成 的单词组的概率。6.根据权利要求3所述的方法,其中对于上述句子中的各个单词,确定该单词以及该 单词与其后面的单词所组成的所有可能的组合词中概率最高的那一个词进一...

【专利技术属性】
技术研发人员:刘占一王海峰
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1