【技术实现步骤摘要】
计算句子相似度的方法和装置以及机器翻译的方法和装置
本专利技术涉及计算机
,特别涉及一种计算句子相似度的方法和装置以及机器翻译的方法和装置。
技术介绍
句子相似度计算在问题检索、双语例句检索、机器翻译、文档文摘等领域都有很重要的应用价值,其中采用怎样的句子相似度计算方法能够准确地体现两个句子之间的相似状况是影响上述应用质量的关键。举一个在机器翻译技术中的应用,在机器翻译技术中通常使用预处理过的双语例句作为主要翻译资源,通过编辑与待翻译句子匹配的相似例句来生成最终译文。具体地,包括以下步骤I)在翻译实例库中搜索与待翻译句子匹配的相似例句。例如待翻译句子为This is a pencil。相似例句为That is a pen。 2)识别待翻译句子和相似例句之间的差异词This和That是差异词,pencil和pen是差异词。3)将待翻译句子中的差异词对应的译文作为候选译文片段。即“这”和“铅笔”作为候选译文片段。4)在相似例句的译文中,利用候选译文片段替换相似例句中差异词的译文,得到待翻译句子的译文。相似例句的译文为“那是一只钢笔”,用“这”替换“那”,用“铅笔”替换“铅笔”,得到待翻译句子的译文为“这是一只铅笔”。由以上机器翻译过程可以看出,如何选择相似例句是影响翻译质量高低的关键因素。现有的句子相似度计算通常采用计算句子之间编辑距离的方式,编辑距离由从一个句子转换到另一个句子所需要的最少操作数目确定,所述操作可以包括插入、删除或替换等,如果两个句子之间的编辑距离越小,则确定两个句子之间的相似度越高,但这种方式会存在一定缺陷。例如,如果待翻译句子为Ca ...
【技术保护点】
一种计算句子相似度的方法,其特征在于,该方法包括:A、对第一句子和第二句子进行比较,确定差异词对;B、利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;C、利用差异词对中各差异词的打分结果,确定差异词对的打分;D、利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。
【技术特征摘要】
1.一种计算句子相似度的方法,其特征在于,该方法包括A、对第一句子和第二句子进行比较,确定差异词对;B、利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;C、利用差异词对中各差异词的打分结果,确定差异词对的打分;D、利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。2.根据权利要求1所述的方法,其特征在于,在所述步骤B中,按照如下公式为各差异词打分3.根据权利要求1或2所述的方法,其特征在于,在所述步骤C中,按照如下公式为差异词对打分4.根据权利要求1所述的方法,其特征在于,该方法还包括确定差异词对中两差异词的特征向量,利用所述两差异词的特征向量,计算所述两差异词的相似距离;所述步骤C中确定差异词对的打分时,进一步利用差异词对中两差异词的相似距离。5.根据权利要求4所述的方法,其特征在于,差异词的特征向量的确定方式具体为查询所述搭配概率模型,将与差异词的搭配概率达到预设搭配概率阈值的词语构成该差异词的特征向量。6.根据权利要求4所述的方法,其特征在于,按照如下公式计算所述两差异词的相似距离dist(w,w) = A-Cosine(F(w),F(w)),其中,为差异词w和#的相似距离,A为预设的正数,F(W)为差异词w的特征向量,F(#)为差异词#的特征向量,CosineOF(HFOiO)为F(W)和的夹角余弦。7.根据权利要求4、5或6所述的方法,其特征在于,在所述步骤C中,按照如下公式为差异词对打分8.一种机器翻译的方法,其特征在于,该机器翻译的方法包括` 51、采用如权利要求1所述的方法计算待翻译句子和预设的例句库中句子的相似度; `52、选择相似度排在前N个的句子作为所述待翻译句子的相似例句,N为预设的正整数; ` 53、利用所述相似例句的译文得到所述待翻译句子的译文。9.根据权利要求8所述的机器翻译的方法,其特征在于,所述步骤SI具体包括 ` 511、确定所述例句库中与所述待翻译句子之间的编辑距离满足预设要求的句子;`` ` 512、采用如权利要求1所述的方法计算待翻译句子和所述步骤Sll确定的句子之间的相似度。10.根据权利要求8所述的机器翻译的方法,其特征在于,所述步骤S3具体包括 531、识别所述待翻译句子和所述相似例句之间的差异词; 532、将所述待翻译句子中的差异词对应的译文作为候选译文片段; 533、在所述相似例句的译文中,利用候选译文片段替换相似例句中对应差异词的译文,得到所述待翻译句子的译文。11.根据权利要求8所述的机器翻译的方法,其特征在于,该机器翻译的方法还包括在显示所述待翻译句子的译文的同时,将采用的相似例句以及采用的相似例句和所述待翻译句子的各差异词对的打分结果进行显示。1...
【专利技术属性】
技术研发人员:刘占一,吴华,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。