计算句子相似度的方法和装置以及机器翻译的方法和装置制造方法及图纸

技术编号:8562983 阅读:165 留言:0更新日期:2013-04-11 04:38
本发明专利技术提供了一种计算句子相似度的方法和装置以及机器翻译的方法和装置,其中计算句子相似度的方法包括:对第一句子和第二句子进行比较,确定差异词对;利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;利用差异词对中各差异词的打分结果,确定差异词对的打分;利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。通过本发明专利技术能够更加准确地体现两句子之间的匹配程度,从而提高其用于诸如机器翻译等应用的质量。

【技术实现步骤摘要】
计算句子相似度的方法和装置以及机器翻译的方法和装置
本专利技术涉及计算机
,特别涉及一种计算句子相似度的方法和装置以及机器翻译的方法和装置。
技术介绍
句子相似度计算在问题检索、双语例句检索、机器翻译、文档文摘等领域都有很重要的应用价值,其中采用怎样的句子相似度计算方法能够准确地体现两个句子之间的相似状况是影响上述应用质量的关键。举一个在机器翻译技术中的应用,在机器翻译技术中通常使用预处理过的双语例句作为主要翻译资源,通过编辑与待翻译句子匹配的相似例句来生成最终译文。具体地,包括以下步骤I)在翻译实例库中搜索与待翻译句子匹配的相似例句。例如待翻译句子为This is a pencil。相似例句为That is a pen。 2)识别待翻译句子和相似例句之间的差异词This和That是差异词,pencil和pen是差异词。3)将待翻译句子中的差异词对应的译文作为候选译文片段。即“这”和“铅笔”作为候选译文片段。4)在相似例句的译文中,利用候选译文片段替换相似例句中差异词的译文,得到待翻译句子的译文。相似例句的译文为“那是一只钢笔”,用“这”替换“那”,用“铅笔”替换“铅笔”,得到待翻译句子的译文为“这是一只铅笔”。由以上机器翻译过程可以看出,如何选择相似例句是影响翻译质量高低的关键因素。现有的句子相似度计算通常采用计算句子之间编辑距离的方式,编辑距离由从一个句子转换到另一个句子所需要的最少操作数目确定,所述操作可以包括插入、删除或替换等,如果两个句子之间的编辑距离越小,则确定两个句子之间的相似度越高,但这种方式会存在一定缺陷。例如,如果待翻译句子为CanI take a picture of the painting 通过计算编辑距离方式选择的相似例句为Can I take a picture of the car 利用该相似例句形成的译文为我能为这辆油画拍张照片吗?如果将句子Can we take a photo of the painting作为待翻译句子的相似例句,则形成的译文为我能为这幅油画拍张照片吗?可以看出,虽然句子Can we take a photo of the painting与待翻译句子的编辑距离大于句子Can I take a picture of the car与待翻译句子的编辑距离,但其与待翻译句子的相似性要高于句子Can I take a picture of the car,从而形成的译文质量也较闻。上述的问题就是因为在计算句子之间相似度时,没有考虑两句子差异词之间的关系。虽然有人提出在相似度的计算中基于同义词词典来考虑差异词之间的相似程度,但在很多应用下,诸如上述机器翻译应用中,差异词与上下文之间搭配关系相比较语义来说,在相似度计算中具有更加重要的意义,更能够准确地体现出两句子之间的匹配程度,对上述应用的质量影响更大。
技术实现思路
本专利技术提供了一种计算句子相似度的方法和装置以及机器翻译的方法和装置,以便于更加准确地体现两句子之间的匹配程度,从而提高其用于诸如机器翻译等应用的质量。具体技术方案如下一种计算句子相似度的方法,该方法包括A、对第一句子和第二句子进行比较,确定差异词对;B、利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;C、利用差异词对中各差异词的打分结果,确定差异词对的打分;D、利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。具体地,在所述步骤B中,按照如下公式为各差异词打分本文档来自技高网
...

【技术保护点】
一种计算句子相似度的方法,其特征在于,该方法包括:A、对第一句子和第二句子进行比较,确定差异词对;B、利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;C、利用差异词对中各差异词的打分结果,确定差异词对的打分;D、利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。

【技术特征摘要】
1.一种计算句子相似度的方法,其特征在于,该方法包括A、对第一句子和第二句子进行比较,确定差异词对;B、利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;C、利用差异词对中各差异词的打分结果,确定差异词对的打分;D、利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。2.根据权利要求1所述的方法,其特征在于,在所述步骤B中,按照如下公式为各差异词打分3.根据权利要求1或2所述的方法,其特征在于,在所述步骤C中,按照如下公式为差异词对打分4.根据权利要求1所述的方法,其特征在于,该方法还包括确定差异词对中两差异词的特征向量,利用所述两差异词的特征向量,计算所述两差异词的相似距离;所述步骤C中确定差异词对的打分时,进一步利用差异词对中两差异词的相似距离。5.根据权利要求4所述的方法,其特征在于,差异词的特征向量的确定方式具体为查询所述搭配概率模型,将与差异词的搭配概率达到预设搭配概率阈值的词语构成该差异词的特征向量。6.根据权利要求4所述的方法,其特征在于,按照如下公式计算所述两差异词的相似距离dist(w,w) = A-Cosine(F(w),F(w)),其中,为差异词w和#的相似距离,A为预设的正数,F(W)为差异词w的特征向量,F(#)为差异词#的特征向量,CosineOF(HFOiO)为F(W)和的夹角余弦。7.根据权利要求4、5或6所述的方法,其特征在于,在所述步骤C中,按照如下公式为差异词对打分8.一种机器翻译的方法,其特征在于,该机器翻译的方法包括` 51、采用如权利要求1所述的方法计算待翻译句子和预设的例句库中句子的相似度; `52、选择相似度排在前N个的句子作为所述待翻译句子的相似例句,N为预设的正整数; ` 53、利用所述相似例句的译文得到所述待翻译句子的译文。9.根据权利要求8所述的机器翻译的方法,其特征在于,所述步骤SI具体包括 ` 511、确定所述例句库中与所述待翻译句子之间的编辑距离满足预设要求的句子;`` ` 512、采用如权利要求1所述的方法计算待翻译句子和所述步骤Sll确定的句子之间的相似度。10.根据权利要求8所述的机器翻译的方法,其特征在于,所述步骤S3具体包括 531、识别所述待翻译句子和所述相似例句之间的差异词; 532、将所述待翻译句子中的差异词对应的译文作为候选译文片段; 533、在所述相似例句的译文中,利用候选译文片段替换相似例句中对应差异词的译文,得到所述待翻译句子的译文。11.根据权利要求8所述的机器翻译的方法,其特征在于,该机器翻译的方法还包括在显示所述待翻译句子的译文的同时,将采用的相似例句以及采用的相似例句和所述待翻译句子的各差异词对的打分结果进行显示。1...

【专利技术属性】
技术研发人员:刘占一吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1