一种跨语言搜索的方法和装置制造方法及图纸

技术编号：7718672 阅读：186 留言：0更新日期：2012-08-30 02:48

本发明专利技术提供了一种跨语言搜索的方法和装置，其中方法包括：A、接收用户输入的源语言搜索请求(query)；B、将所述源语言query翻译为N种目标语言query，N为大于1的整数；C、分别获取所述N种目标语言query对应的搜索结果；D、将步骤C获取的搜索结果进行整合后形成最终的搜索结果集合提供给用户；其中在所述最终的搜索结果集合中，根据各搜索结果在所属分类中的排次以及所属分类的排序权重，对各搜索结果进行排序。通过本发明专利技术能够实现包含多语言文档的搜索结果，为用户提供更优、更多的搜索结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种跨语言搜索的方法和装置
本专利技术涉及互联网
，特别涉及一种跨语言捜索的方法和装置。背景技木随着互联网信息的不断增长，人们对于信息捜索提出了更高的要求，不再满足于在同一种语种文档集中捜索，而要求获取多种语种文档。例如，如果用户输入的搜索词(query)为“贝克汉姆图片”，则中文文档集中的捜索可能并不能最大程度地满足用户需求，欧美网站的英文文档集中可能具有更优、更多的搜索結果。当从多语种文档集中进行搜索的需求越来越高时，为了获得更多、更全面、更准确的信息，同时为了跨越语言障碍，人们希望能够以ー种自己熟悉的语言描述query，而搜索结果中能够包括多语言的文档，即进行两语种之间的跨语言搜索。
技术实现思路
有鉴于此，本专利技术提供了一种跨语言捜索的方法和装置，以便于实现包含多语言文档的搜索結果，为用户提供更优、更多的捜索結果。具体技术方案如下一种跨语言搜索的方法，该方法包括A、接收用户输入的源语言搜索请求query ；B、将所述源语言query翻译为N种目标语言query，N为大于I的整数；C、分别获取所述N种目标语言query对应的捜索结果；D、将步骤C获取的捜索结果进行整合后形成最終的捜索结果集合提供给用户；其中在所述最終的捜索结果集合中，根据各搜索结果在所属分类中的排次以及所属分类的排序权重，对各搜索结果进行排序。在步骤B中，针对每ー种目标语言，将所述源语言query对应的该种目标语言的翻译结果中，翻译分值最高的ー种翻译结果作为目标语言query ；翻译结果e的翻译分值由以下因素中的至少ー种确定翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译...

【技术保护点】

【技术特征摘要】
1.一种跨语言捜索的方法，其特征在于，该方法包括 A、接收用户输入的源语言搜索请求query； B、将所述源语言query翻译为N种目标语言query，N为大于I的整数； C、分别获取所述N种目标语言query对应的捜索结果； D、将步骤C获取的捜索结果进行整合后形成最終的捜索结果集合提供给用户；其中在所述最終的捜索结果集合中，根据各搜索结果在所属分类中的排次以及所属分类的排序权重，对各搜索结果进行排序。2.根据权利要求I所述的方法，其特征在于，在步骤B中，针对每ー种目标语言，将所述源语言query对应的该种目标语言的翻译结果中，翻译分值最高的一种翻译结果作为目标语目query ；翻译结果e的翻译分值由以下因素中的至少ー种确定翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。3.根据权利要求I所述的方法，其特征在于，所述步骤B具体包括 BI、对所述源语言query进行优化处理,所述优化处理包括query纠错处理和query扩展处理中的任一种或组合； B2、将优化处理后的源语言query翻译为N种目标语言query。4.根据权利要求3所述的方法，其特征在干，如果所述优化处理仅包括query纠错处理，则对所述用户输入的源语言query进行query纠错处理后得到包含nl个query的源语言query集合Ql, nl为预设的正整数；所述步骤B2具体为针对每ー种目标语言，分别利用所述Ql中的各query进行翻译，确定翻译分值总和最高的翻译结果作为目标语言query ;其中，翻译结果的翻译分值总和 nl为ZP(eIqi)，P (e I qj)为所述Ql中qi被翻译为e的翻译分值； 1=1 翻译结果e对应的翻译分值由以下因素中的至少ー种确定翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。5.根据权利要求3所述的方法，其特征在干，如果所述优化处理仅包括query扩展处理，则对所述用户输入的源语言query进行query扩展处理后得到包含n2个query的源语言query集合Q2，n2为预设的正整数；所述步骤B2具体为针对每ー种目标语言，分别利用所述Q2中的各query进行翻译，确定翻译分值总和最高的翻译结果作为目标语言query ;其中，翻译结果的翻译分值总和 n2为ZP(eIqi)，P (e I qj)为所述Q2中qi被翻译为e的翻译分值； 1=1 翻译结果e对应的翻译分值由以下因素中的至少ー种确定翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。6.根据权利要求3所述的方法，其特征在干，如果所述优化处理既包括query纠错处理又包括query扩展处理,则对所述用户输入的源语言query进行query纠错处理和query扩展处理后得到包含n个query的源语言query集合Q, n为预设的正整数；所述步骤B2具体为针对每ー种目标语言，分别利用所述Q中的各query进行翻译，确定翻译分值总和最高的翻译结果作为目标语言query ;其中，翻译结果的翻译分值总和为7.根据权利要求6所述的方法，其特征在干，对所述用户输入的源语言query进行query纠错处理后和query扩展处理后得到包含n个query的源语言query集合Q具体包括对所述用户输入的源语言query进行query纠错处理后得到包含nl个query的源语言query集合Ql, nl为预设的正整数,将所述Ql中的各query分别进行query扩展处理，得到包含n个query的源语言query集合Q ;或者，对所述用户输入的源语言query进行query扩展处理后得到包含n2个query的源语言query集合Q2, n2为预设的正整数,将所述Q2中的各query分别进行query纠错处理，得到包含n个query的源语言query集合Q ;或者，对所述用户输入的源语言query同时进行query纠错处理和query扩展处理后，分别得到包含nl个query的源语言query集合Ql和包含n2个query的源语言query集合Q2,将所述Ql和Q2取并集后，得到包含n个query的源语言query集合Q。8.根据权利要求3、4或7所述的方法，其特征在干，对所述用户输入的源语言query进行query纠错处理具体包括利用所述用户输入的源语言query查找纠错训练语料，判断纠错训练语料中是否存在与所述用户输入的源语言query相同的错误query，如果是，则确定与所述用户输入的源语言query相同的错误query所对应的所有正确query,从确定的所有正确query中选择对应纠错概率排在前nl个的正确query构成源语言query集合Ql ;否则,所述Ql中仅包括所述用户输入的源语言query ；其中，所述纠错训练语料包括预先从搜索日志中收集的错误query和对应正确query构成的query对，以及错误query被纠错为对应正确query的纠错概率。9.根据权利要求3、5或7所述的方法，其特征在干，对所述用户输入的源语言query进行query扩展处理具体包括将所述用户输入的源语言query进行分词处理，通过查找源语言的复述资源确定分词处理后得到的各词语的同义词，利用分词处理后得到的各词语及各词语的同义词进行组合，取组合得到的query中扩展分值排在前n2个的query构成所述Q2 ； query的扩展分值由创建所述复述资源中该query的统计次数确定。10.根据权利要求I至7任ー权项所述的方法，其特征在于，所述步骤C还包括获取所述源语言query对应的搜索结果。11.根据权利要求4、5、6或7所述的方法，其特征在于，所述步骤C还包括从优化处理后得到的源语言query集合中选择ー个query,获取所述选择的query对应的搜索结果。12.根据权利要求11所述的方法，其特征在于，所述从优化处理后得到的源语言query集合中选择ー个query时,使用的选择策略包括对优化处理后得到的源语言query集合中的各query逐一进行搜索，直至找到搜索效果满足预设要求的query，选择该捜索效果满足预设要求的query ;或者，对优化处理后得到的源语言query集合中的各query进行搜索,选择搜索效果最优的query。13.根据权利要求I所述的方法，其特征在于，步骤D中所述整合包括对步骤C获取的捜索结果进行合并和去重。14.根据权利要求I所述的方法，其特征在于，所述根据各捜索结果在所属分类中的排次以及所属分类的排序权重，对各搜索结果进行排序具体包括利用各捜索结果在所属分类中的排次以及所属分类的排序权重，对各搜索结果进行打分，按照打分结果从高到低对各搜索结果进行排序；其中，搜索结果Rst的打分结果Score(RSt)为15.根据权利要求14所述的方法，其特征在于，捜索结果所属分类为搜索结果对应的语H ；第i种分类的排序权重的确定方法具体为s1、提取所述用户输入的源语言query的特征； s2、将步骤SI提取的特征与各语言的特征向量进行相似度计算，确定相似度超过预设的相似度阈值的语言为所述用户输入的源语言query的映射语言； s、对于搜索结果Rst，如果Rst所属分类为映射语言，则该所属分类的排序权重Wi为第一设定值a ;如果Rst所属分类为源语言且源语言不是该所属分类的映射语言，则该所属分类的排序权重Wi为第二设定值b ;如果Rst所属分类既不是映射语言也不是源语言，则该所属分类的排序权重Wi为第三设定值c ; 其中，a > b > c，各语言的特征向量是预先对各语言的已有资源进行挖掘所训练出来的。16.一种跨语言捜索的装置，其特征在于，该装置包括用户侧交互単元、翻译处理单元、捜索处理单元和结果整合単元；所述用户侧交互単元，用于接收用户输入的源语言搜索请求query，将所述结果整合单元整合后形成的捜索结果集合提供给所述用户；所述翻译处理单元，用于将所述源语言query翻译为N种目标语言query，N为大于I的整数；所述搜索处理单元，用于分别获取所述N种目标语言query对应的捜索结果；所述结果整合単元，用于将所述搜索处理单元获取的捜索结果进行整合后形成最終的捜索结果集合；其中，在所述最終的捜索结果集合中，根据各搜索结...

【专利技术属性】
技术研发人员：赵世奇，吴华，王海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人