一种对例句检索结果进行排序的方法及装置制造方法及图纸

技术编号:7181561 阅读:329 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种对例句检索结果进行排序的方法及装置,其中所述方法包括:A.获取用户的查询词;B.从句库中检索包含查询词的匹配例句;C.计算各个匹配例句与查询词之间的搭配强度,其中匹配例句与查询词之间的搭配强度由各查询词之间的搭配概率及各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率来确定;D.按照匹配例句与所述查询词之间的搭配强度对各个匹配例句进行排序。通过上述方式,能够更好地满足用户的语言学习的目的和需求,提高用户的浏览效率,同时减少了系统为满足用户需求而增加的响应次数。

【技术实现步骤摘要】
一种对例句检索结果进行排序的方法及装置
本专利技术涉及自然语言处理
,特别涉及一种对例句检索结果进行排序的方法及装置。
技术介绍
随着计算机与互联网技术的深入发展,人们在语言学习中借助计算机强大的计算能力来获取自己需要的信息成为可能,例句检索系统就是一种帮助语言学习的人们获取相关资讯的有力工具,其通过在大规模句库中检索与用户输入相匹配的例句,帮助用户获得相关语言的正确用法。但是现有的例句检索系统在对检索结果的排序过程中,不考虑用户输入的查询词在某个具体的例句中与例句上下文之间的相互关系,这样很可能出现排在检索结果前列的例句,并不是用户真正希望获取的例句。例如针对用户输入的查询词“提高” + “效率”,得到下面两个匹配例句1、从某种意义上说,生产力的提高可以实现更高的效率。2、这篇文章详细的解释了如何提高大规模检索系统的效率。通常来说,当用户输入多个查询词,这多个查询词之间是有联系的,用户希望看到的是这几个查询词在例句中是如何被联合使用的。在例句2中,“提高”与“效率”恰好构成搭配关系,具有较强的内在联系,而例句1中,“提高”实际上是与“生产力”构成了搭配, “提高”与“效率”之间的联系并不强,对用户来说,显然例句2才是他真正希望获取的内容。 由于现有技术对例句检索结果进行排序时,不能对例句1和例句2这两种情况进行区分,从而导致与用户需求不够相关的检索结果被排在前列,从而影响了用户的浏览效率,增加了系统的响应次数。
技术实现思路
本专利技术所要解决的技术问题是提供一种对例句检索结果进行排序的方法及装置, 以解决现有的例句检索系统中存在的影响用户浏览效率,增加系统响应次数的缺陷。本专利技术为解决技术问题而采用的技术方案是提供一种对例句检索结果进行排序的方法,包括A.获取用户的查询词;B.从句库中检索包含所述查询词的匹配例句;C.计算各个匹配例句与所述查询词之间的搭配强度,其中匹配例句与所述查询词之间的搭配强度由各查询词之间的搭配概率及各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率来确定,词语之间搭配概率是指词语之间形成搭配关系的可能性;D.按照匹配例句与所述查询词之间的搭配强度对各个匹配例句进行排序。根据本专利技术之一优选实施例,所述句库包括单语句库或双语句库。根据本专利技术之一优选实施例,匹配例句与所述查询词之间的搭配强度等于各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的比值,或者,各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的差值,或者,各查询词之间的搭配概率的平均值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率的平均值的比值,或者,各查询词之间的搭配概率的平均值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率的平均值的差值,或者,各查询词之间的搭配概率之和与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率之和的比值,与长度修正因子的乘积,其中所述长度修正因子是一个与匹配例句的长度有关的函数。根据本专利技术之一优选实施例,所述方法进一步包括如果所述句库为双语句库,在展示各个匹配例句时,展示所述双语句库中与各个匹配例句互为译文的另一语言的例句。根据本专利技术之一优选实施例,所述方法进一步包括在展示各个匹配例句时,确定并展示各匹配例句与所述查询词之间的搭配强度等级。本专利技术还提供了一种对例句检索结果进行排序的装置,包括接收单元,用于获取用户的查询词;检索单元,用于从句库中检索包含各查询词的匹配例句;计算单元,用于计算各个匹配例句与所述查询词之间的搭配强度,其中匹配例句与所述查询词之间的搭配强度由各查询词之间的搭配概率及各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率来确定,词语之间搭配概率是指词语之间形成搭配关系的可能性;排序单元,用于按照匹配例句与所述查询词之间的搭配强度对各个匹配例句进行排序。根据本专利技术之一优选实施例,所述句库包括单语句库或双语句库。根据本专利技术之一优选实施例,匹配例句与所述查询词之间的搭配强度等于各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的比值,或者,各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的差值,或者,各查询词之间的搭配概率的平均值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率的平均值的比值,或者,各查询词相互之间的搭配概率的平均值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率的平均值的差值,或者,各查询词之间的搭配概率之和与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率之和的比值,与长度修正因子的乘积,其中所述长度修正因子是一个与匹配例句的长度有关的函数。根据本专利技术之一优选实施例,所述装置进一步包括展示单元,如果所述句库为双语句库,则所述展示单元在展示各个匹配例句时,展示所述双语句库中与各个匹配例句互为译文的另一语言的例句。根据本专利技术之一优选实施例,所述装置进一步包括确定单元,用于在展示各个匹配例句时,确定各匹配例句与所述查询之间的搭配强度等级。由以上技术方案可以看出,通过计算各个匹配例句中各查询词之间的搭配强度, 并根据搭配强度对匹配例句进行排序和展示,能够更好地满足用户的语言学习的目的和需求,提高用户的浏览效率,同时减少了系统为满足用户需求而增加的响应次数。附图说明图1为本专利技术中对例句检索结果进行排序的方法的实施例的流程示意图;图2为本专利技术中例句检索结果展示界面的实施例一的示意图;图3为本专利技术中例句检索结果展示界面的实施例二的示意图4为本专利技术中对例句检索结果进行排序的装置的实施例的结构示意框图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。请参考图1,图1为本专利技术中对例句检索结果进行排序的方法的实施例的流程示意图。如图1所示,所述方法包括步骤101 获取用户的查询词。步骤102 从句库中检索包含各查询词的匹配例句。步骤103 计算各个匹配例句与查询词之间的搭配强度。步骤104 按照匹配例句与查询词之间的搭配强度的大小对各个匹配例句进行排序。下面对上述步骤进行具体说明。用户在进行语言学习时,在查询一个词或多个词时的目的通常是不一样的,在查询一个词的时候,用户希望获得包含该词语的例句,以了解查询词在句子中的用法,而用户在查询多个词时,通常这多个词在使用时是有搭配关系的,用户希望获得包含这几个查询词的例句,同时希望了解这几个查询词之间的搭配关系是如何体现在例句中的。在本专利技术实施例中将只考虑两个或两个以上的查询词在例句中搭配关系的状况,因此在步骤101 中,获取的用户查询词为多个查询词。在步骤102中,从已有的句库中检索包含查询词的匹配例句,句库可以是单语句库或双语句库。单语句库是由一种语言的句子形成的句库,双语句库是由双语句对形成的句库,该句对由两种不同语言的句子构成,并且这两个句子互为对方的译文。句库可以通过现有技术在线下生成,例如单语句库可以从一种语言的大规模语料中得来,而双语句库可以从大规模双语语料中提取得来。如果句库为双语句库,本文档来自技高网...

【技术保护点】
1.一种对例句检索结果进行排序的方法,其特征在于,所述方法包括:A.获取用户的查询词;B.从句库中检索包含所述查询词的匹配例句;C.计算各个匹配例句与所述查询词之间的搭配强度,其中匹配例句与所述查询词之间的搭配强度由各查询词之间的搭配概率及各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率来确定,词语之间搭配概率是指词语之间形成搭配关系的可能性;D.按照匹配例句与所述查询词之间的搭配强度对各个匹配例句进行排序。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘占一吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1