一种多语种混合检索方法和系统技术方案

技术编号:9535332 阅读:101 留言:0更新日期:2014-01-03 18:39
本发明专利技术提供了一种多语种混合检索方法和系统,涉及网络技术领域。本发明专利技术的方法包括:接收用户端输入的查询词,并识别所述查询词的所属源语种;将所述查询词从源语种翻译为各目标语种的查询词;所述各目标语种为与所述源语种不同的语种;对于每个语种的查询词,基于所述查询词检索对应各语种网页信息的索引,获得相应语种的网页信息;对于由各目标语种对应的索引获得的网页信息,获取从各目标语种翻译为源语种后的网页信息;对于得到的所有网页信息,返回至少一条网页信息至用户端。本发明专利技术去除了现有技术对于在检索过程中全文翻译的依赖,降低因翻译而存在的信息损失问题,降低没有明显上下文关系的信息的翻译信息损失问题,提高搜索结果的精确度。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种多语种混合检索方法和系统,涉及网络
。本专利技术的方法包括:接收用户端输入的查询词,并识别所述查询词的所属源语种;将所述查询词从源语种翻译为各目标语种的查询词;所述各目标语种为与所述源语种不同的语种;对于每个语种的查询词,基于所述查询词检索对应各语种网页信息的索引,获得相应语种的网页信息;对于由各目标语种对应的索引获得的网页信息,获取从各目标语种翻译为源语种后的网页信息;对于得到的所有网页信息,返回至少一条网页信息至用户端。本专利技术去除了现有技术对于在检索过程中全文翻译的依赖,降低因翻译而存在的信息损失问题,降低没有明显上下文关系的信息的翻译信息损失问题,提高搜索结果的精确度。【专利说明】一种多语种混合检索方法和系统
本申请涉及网络
,特别是涉及一种多语种混合检索方法和系统。
技术介绍
随着网络的普及,网络上的信息资源日益丰富且用户对于网络资源的需求也在逐渐提高。但是在网页信息资源日益丰富的同时,又存在着阻碍这些资源为用户所广泛共存的一个主要障碍:多语种问题。为了解决多语种问题,便开始多语种信息检索(MLIR)的研究。现有技术中,举例来说,以西班牙语和英语为例:首先,将英语的文档全文翻译为西班牙语文档,然后将翻译得到的西班牙语文档和原有的西班牙文档一起建立西班牙语对应的索引;同时也讲西班牙语文档全文翻译为英语文档,然后将翻译得到的英语文档和原有的英语文档一起建立英语对应的索引。当有英语查询词时,将英语查询词在英语对应的索引中进行检索,获取检索结果并返回;当有西班牙查询词时,将西班牙语查询词在西班牙语对应的索引中进行检索,获取检索结果并返回。现有技术中,首先,对于其中任意一种语言A,先将其他语言的文档翻译为该语言A的文档在一起建立索引,导致系统结构臃肿,硬件设备规模庞大,不易于维护,也不易于扩展。其次,对于其中任意一种语言A,现有技术将其他语言的文档的全文翻译为该语言A的文档后,将语言A的查询词在这些文档中进行搜索,由于各种语言的规则很不相同,导致翻译时原文档的语义信息损失,并且翻译越多,则可能存在的损失越大,如此,再在全文翻译的基础上进行搜索必然会不够精确。
技术实现思路
本申请所要解决的技术问题是提供一种多语种混合检索方法和系统,能降低精准度损失的问题,并且系统结构简单,降低硬件设备的规模,易于扩展,布置灵活。为了解决上述问题,本申请公开、一种多语种混合检索方法,包括:接收用户端输入的查询词,并识别所述查询词的所属源语种;将所述查询词从源语种翻译为各目标语种的查询词;所述各目标语种为与所述源语种不同的语种;对于每个语种的查询词,基于所述查询词检索对应各语种网页信息的索引,获得相应语种的网页信息;对于由各目标语种对应的索引获得的网页信息,获取从各目标语种翻译为源语种后的网页信息;对于得到的所有网页信息,返回至少一条网页信息至用户端。优选的,所述各语种的网页信息的索引建立的步骤包括:对于一个语种的网页信息,获取所述网页信息对应的各特征域的域信息;对于每个特征域的域信息,基于所属语种的语义规则进行规范化处理,得到该语种的各最简语义单元;基于各最简语义单元和各特征域建立索引。优选的,基于各最简语义单元和各特征域建立索引时包括:利用各最简语义单元,建立第一倒排索引;所述第一倒排索引用于依据查询词初步筛选与所述查询词相关的网页信息;利用所述各特征域和相应特征域中的最简语义单元,将特征域排序建立第二序列化索引;所述第二序列化索引用于在所述初步筛选的网页信息中再次筛选与所述查询词相关的网页信息。优选的,对于每个语种的查询词,基于所述查询词检索对应各语种的网页信息的索引,获得相应语种的网页信息时包括:对于每个语种的查询词,按相应语种的语义规则对所述查询词进行规范化处理,得到相应语种的各最简语义单元;基于各语种的所述各最简语义单元检索相应语种网页信息的索引,获得相应语种的网页信息。优选的,在获得相应语种的网页信息时包括:对于每一个语种的网页信息,计算所述网页信息与相应语种查询词的相关性权值。优选的,计算所述网页信息与相应语种查询词的相关性权值的步骤包括:计算所述查询词与网页信息的主题特征域中相同的词占查询词长度的占比Π ;计算所述查询词与网页信息的主题特征域中相同的词占所述主题特征域中各词长度的占比f2 ;计算所述查询词对应的各最小语义单元在所述主题特征域的各最小语义单元中的占比f3 ;计算查询词占网页信息的关键词特征域的关键词占比情况f4 ;计算查询词的最小语义单元序列与网页信息的主题特征域的最小语义单元序列的匹配情况f5 ;计算查询词的最小语义单元序列与网页信息的关键词特征域的关键词序列的匹配情况f6 ;基于所述fl、f2、f3、f4、f5、f6进行线性回归拟合获得所述相关性权值。优选的,将所述查询词从源语种翻译为各目标语种的查询词时包括:计算所述查询词从源语种翻译为各目标语种的查询词的第一翻译权值。优选的,获取从各目标语种翻译为源语种后的网页信息时包括:获取各目标语种的网页信息从各目标语种翻译为源语种的第二翻译权值。优选的,对于得到的所有网页信息,返回至少一条网页信息至用户端之前还包括:对于每一条网页信息,利用所述网页信息的所述相关性权值、和/或第一翻译权值、和\或第二翻译权值归一化计算为同一标准下的总权值;利用所述总权值对各条网页信息进行排序。优选的,对于得到的所有网页信息,返回至少一条网页信息至用户端包括:将网页信息中的标识特征域相同的网页信息进行去重。相应的,本申请还公开了一种多语种混合检索系统,包括接收识别模块,用于接收用户端输入的查询词,并识别所述查询词的所属源语种;翻译模块,用于将所述查询词从源语种翻译为各目标语种的查询词;所述各目标语种为与所述源语种不同的语种;检索模块群,其中每个语种对应一个检索模块,用于对于相应语种的查询词,基于所述查询词检索对应语种网页信息的索引,获得相应语种的网页信息;源语种网页信息获取模块,用于对于由各目标语种对应的索引获得的网页信息,获取从各目标语种翻译为源语种后的网页信息;返回模块,用于对于得到的所有网页信息,返回至少一条网页信息至用户端。优选的,所述索引的建立模块包括:域信息获取子模块,用于对于一个语种的网页信息,获取所述网页信息对应的各特征域的域信息;预处理子模块,用于对于每个特征域的域信息,基于所属语种的语义规则进行规范化处理,得到该语种的各最简语义单元;建立子模块,用于基于各最简语义单元和各特征域建立索引。与现有技术相比,本申请包括以下优点:本申请首先对于每一种语言的网页信息建立一套索引,然后对于用户端输入的查询词,首先识别其所属的源语种,并将查询词从源语种翻译为其他语种的查询词;此时对于各语种的查询词,将其输入相应语种的检索引擎中进行检索,得到与查询词相关的网页信息,最后再将得到的产品翻译为源语种的网页信息,返回给用户端查看。在上述过程中,由于是针对每一种语言的网页信息单独建立了索引,在搜索时每种语言的查询词只搜索本语言的网页信息,不用分别为每种语言建立所有语言的网页信息的索引,简化了索引结构,使构建整个系统的硬件设备大大缩减;其次,在上述过程中只是对查询词翻译为目标语言,然后去目标语言的网页信息本文档来自技高网
...
一种多语种混合检索方法和系统

【技术保护点】
一种多语种混合检索方法,其特征在于,包括:接收用户端输入的查询词,并识别所述查询词的所属源语种;将所述查询词从源语种翻译为各目标语种的查询词;所述各目标语种为与所述源语种不同的语种;对于每个语种的查询词,基于所述查询词检索对应各语种网页信息的索引,获得相应语种的网页信息;对于由各目标语种对应的索引获得的网页信息,获取从各目标语种翻译为源语种后的网页信息;对于得到的所有网页信息,返回至少一条网页信息至用户端。

【技术特征摘要】

【专利技术属性】
技术研发人员:郑伟林锋金华兴孙丽刘清富
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1