跨语言获取搜索资源的方法和装置及对应搜索方法和装置制造方法及图纸

技术编号:7974898 阅读:214 留言:0更新日期:2012-11-15 23:02
本发明专利技术提供了一种跨语言获取搜索资源的方法和装置及对应搜索方法和装置,其中获取搜索资源的方法包括:确定目标领域D;利用目标领域D的已有第一语言资源Set(C),结合特征抽取技术以及从第一语言到第二语言的机器翻译技术,确定目标领域D的第二语言特征向量FeaVec_F;对第二语言的通用语料资源库Cor(F)中的各资源进行特征抽取,得到各资源的特征向量FeaVec_di;从Cor(F)中筛选出特征向量FeaVec_di与FeaVec_F之间相似度超过预设阈值T的资源SetD(F);将SetD(F)添加入目标领域D的搜索资源库RDB(C)。通过本发明专利技术能够为用户提供更多、更优质的搜索资源,提高搜索效果。

【技术实现步骤摘要】
跨语言获取搜索资源的方法和装置及对应搜索方法和装置
本专利技术涉及计算机
,特别涉及一种跨语言获取搜索资源的方法和装置及对应搜索方法和装置。
技术介绍
框计算是2009百度技术创新大会上提出的全新技术,为用户提供基于互联网的一站式服务。用户只要在系统中输入请求,系统就能够明确识别出用户需求,并按照需求将用户的请求分配给最优的应用或资源提供商进行处理,并将处理后得到的结果返回给用户。当框计算应用于搜索领域时,搜索系统能够识别出用户输入的搜索请求(query)的需求,例如识别出query所对应的具体领域,然后利用该query在该领域对应的资源库中进行搜索,并将搜索结果返回给用户,从而为用户提供该领域中更加专业的信息。然而,在现有基于框计算的搜索技术中,搜索所使用的资源库通常是单语的资源库,例如,针对旅游领域,搜索所使用的资源库为中文网站提供的旅游领域的资源,但在很多情况下,单语的资源库提供的资源并不优质或者资源很少。例如,如果用户输入query“巴黎旅游”,搜索系统识别出该query对应旅游领域,显然法文网站提供的资源可能更多且更优质,而现有搜索所使用的资源库仅为中文网站提供的旅游领域的资源,因此搜索效果较差。
技术实现思路
本专利技术提供了一种跨语言获取搜索资源的方法和装置及对应搜索方法和装置,以便于为用户提供更多、更优质的搜索资源,提高搜索效果。具体技术方案如下—种跨语言获取搜索资源的方法,该方法包括A、确定目标领域D ;B、利用目标领域D的已有第一语言资源Set (C),结合特征抽取技术以及从第一语言到第二语言的机器翻译技术,确定目标领域D的第二语言特征向量FeaVec_F ;C、对第二语言的通用语料资源库Cor(F)中的各资源进行特征抽取,得到各资源的特征向量FeaVec_di ;D、从所述Cor(F)中筛选出特征向量FeaVec_di与所述FeaVec_F之间相似度超过预设阈值T的资源SetD (F); E、将所述SetD(F)添加入所述目标领域D的搜索资源库RDB(C)。所述步骤B具体包括B11、利用从第一语言到第二语言的机器翻译技术,将所述目标领域D的已有第一语言资源Set (C)翻译成第二语言资源Set (F);B12、对所述Set(F)进行特征抽取,得到所述目标领域D的第二语言特征向量FeaVec—F。或者,所述步骤B具体包括B21、对所述目标领域D的已有第一语言资源Set (C)进行特征抽取,得到所述目标领域D的第一语言特征向量FeaVec_C ;B22、利用从第一语言到第二语言的机器翻译技术,将所述FeaVec_C翻译成所述目标领域D的第二语言特征向量FeaVec_F。上述特征抽取具体包括 SI、对被抽取资源进行基于文本的分词处理,利用预设的停用词表对分词处理后得到的词语进行过滤后得到所述被抽取资源的特征词;S2、按照『00 = tfie,Set)xlog,计算各特征词的权重值;S3、按照各特征词的权重值进行排序,选择排在前NI个的特征词组成目标领域D的特征向量,NI为预设的正整数;其中,W(e)为特征词e的权重值,f(e,Set)为特征词e在所述被抽取资源中出现的频次;freq(e)为特征词e的绝对词频,从所述被抽取资源所对应语种的通用语料资源库中统计得到;Freq为所有特征词的绝对词频的最大值;当所述被抽取资源为所述Set(F)时,所述被抽取资源所对应语种为所述第二语言,所述步骤S3得到的特征向量为所述FeaVec_F ;当所述被抽取资源为所述Set(C)时,所述被抽取资源所对应语种为所述第一语言,所述步骤S3得到的特征向量为所述FeaVec_C。当所述被抽取资源为所述Cor(F)中的各资源时,所述被抽取资源所对应语种为所述第二语言,所述步骤S3得到的特征向量为所述Cor(F)中各资源的特征向量FeaVec_di0另外,所述步骤E具体包括E11、基于预设的目标领域D的资源挖掘模板,从所述SetD(F)中挖掘出资源RscD(F);E12、将所述RscD (F)添加入所述目标领域D的搜索资源库RDB (C);其中,所述资源挖掘模板包括一个以上实例构成的实例集合,所述实例包含信息类型和信息表达式中的一种或组合。 其中,所述步骤E12具体包括结合从第二语言到第一语言的机器翻译技术,将所述RscD(F)翻译为第一语言的资源 Rsc (C);将所述Rsc (C)添加入所述目标领域D的搜索资源库RDB (C)。或者,所述步骤E具体包括E21、结合从第二语言到第一语言的机器翻译技术,将所述SetD(F)翻译为第一语言的资源SetD(C);E22、将所述SetD (C)添加入所述目标领域D的搜索资源库RDB (C)。 具体地,所述翻译所使用的翻译模型由翻译短语表构成,该翻译短语表包括第一 语言短语和对应第二语言短语构成的短语对,以及,短语对的翻译分值;所述翻译短语表中整合有所述目标领域的翻译词典。其中,将所述目标领域的翻译词典整合到所述翻译短语表中包括将所述目标领域的翻译词典中的词对作为短语对逐一添加到所述翻译短语表中;其中,如果所述翻译短语表中尚未包含被添加的词对,则将所述被添加的词对添加到所述翻译短语表中,且所述被添加的词对在所述翻译短语表中的翻译分值SPT(ce)为SPT(ce)=Sdict (ce) Xrate ;如果所述翻译短语表中已经包含所述被添加的词对,贝U不做添加处理;所述Sdirt(Ce)为所述被添加的词对ce在所述翻译词典中的翻译分值,rate为从 所述翻译词典到所述翻译短语表的翻译分值比,本文档来自技高网...

【技术保护点】
一种跨语言获取搜索资源的方法,其特征在于,该方法包括:A、确定目标领域D;B、利用目标领域D的已有第一语言资源Set(C),结合特征抽取技术以及从第一语言到第二语言的机器翻译技术,确定目标领域D的第二语言特征向量FeaVec_F;C、对第二语言的通用语料资源库Cor(F)中的各资源进行特征抽取,得到各资源的特征向量FeaVec_di;D、从所述Cor(F)中筛选出特征向量FeaVec_di与所述FeaVec_F之间相似度超过预设阈值T的资源SetD(F);E、将所述SetD(F)添加入所述目标领域D的搜索资源库RDB(C)。

【技术特征摘要】
1.一种跨语言获取搜索资源的方法,其特征在于,该方法包括 A、确定目标领域D; B、利用目标领域D的已有第一语言资源Set(C),结合特征抽取技术以及从第一语言到第二语言的机器翻译技术,确定目标领域D的第二语言特征向量FeaVec_F ; C、对第二语言的通用语料资源库Cor(F)中的各资源进行特征抽取,得到各资源的特征向量 FeaVec^di ; D、从所述Cor(F)中筛选出特征向量FeaVec_di与所述FeaVec_F之间相似度超过预设阈值T的资源SetD (F); E、将所述SetD(F)添加入所述目标领域D的搜索资源库RDB(C)。2.根据权利要求I所述的方法,其特征在于,所述步骤B具体包括 BH、利用从第一语言到第二语言的机器翻译技术,将所述目标领域D的已有第一语言资源Set (C)翻译成第二语言资源Set (F); B12、对所述Set(F)进行特征抽取,得到所述目标领域D的第二语言特征向量FeaVec_F03.根据权利要求I所述的方法,其特征在于,所述步骤B具体包括 B21、对所述目标领域D的已有第一语言资源Set(C)进行特征抽取,得到所述目标领域D的第一语言特征向量FeaVec_C ; B22、利用从第一语言到第二语言的机器翻译技术,将所述FeaVec_C翻译成所述目标领域D的第二语言特征向量FeaVec_F。4.根据权利要求1、2或3所述的方法,其特征在于,所述特征抽取具体包括 51、对被抽取资源进行基于文本的分词处理,利用预设的停用词表对分词处理后得到的词语进行过滤后得到所述被抽取资源的特征词; 52、按照『00= Set)xlog,计算各特征词的权重值; 53、按照各特征词的权重值进行排序,选择排在前NI个的特征词组成目标领域D的特征向量,NI为预设的正整数; 其中,W(e)为特征词e的权重值,f (e,Set)为特征词e在所述被抽取资源中出现的频次;freq(e)为特征词e的绝对词频,从所述被抽取资源所对应语种的通用语料资源库中统计得到;Freq为所有特征词的绝对词频的最大值; 当所述被抽取资源为所述Set (F)时,所述被抽取资源所对应语种为所述第二语言,所述步骤S3得到的特征向量为所述FeaVec_F ; 当所述被抽取资源为所述Set(C)时,所述被抽取资源所对应语种为所述第一语言,所述步骤S3得到的特征向量为所述FeaVec_C ; 当所述被抽取资源为所述Cor(F)中的各资源时,所述被抽取资源所对应语种为所述第二语言,所述步骤S3得到的特征向量为所述Cor(F)中各资源的特征向量FeaVe^dit55.根据权利要求I所述的方法,其特征在于,所述步骤E具体包括 E11、基于预设的目标领域D的资源挖掘模板,从所述SetD(F)中挖掘出资源RscD (F); E12、将所述RscD (F)添加入所述目标领域D的搜索资源库RDB (C); 其中,所述资源挖掘模板包括一个以上实例构成的实例集合,所述实例包含信息类型和信息表达式中的一种或组合。6.根据权利要求5所述的方法,其特征在于,所述步骤E12具体包括 结合从第二语言到第一语言的机器翻译技术,将所述RscD(F)翻译为第一语言的资源Rsc(C); 将所述Rsc (C)添加入所述目标领域D的搜索资源库RDB (C)。7.根据权利要求I所述的方法,其特征在于,所述步骤E具体包括 E21、结合从第二语言到第一语言的机器翻译技术,将所述SetD(F)翻译为第一语言的资源 SetD(C); E22、将所述SetD(C)添加入所述目标领域D的搜索资源库RDB(C)。8.根据权利要求2、3、6或7所述的方法,其特征在于,所述翻译所使用的翻译模型由翻译短语表构成,该翻译短语表包括第一语言短语和对应第二语言短语构成的短语对,以及,短语对的翻译分值; 所述翻译短语表中整合有所述目标领域的翻译词典。9.根据权利要求8所述的方法,其特征在于,将所述目标领域的翻译词典整合到所述翻译短语表中包括 将所述目标领域的翻译词典中的词对作为短语对逐一添加到所述翻译短语表中;其中, 如果所述翻译短语表中尚未包含被添加的词对,则将所述被添加的词对添加到所述翻译短语表中,且所述被添加的词对在所述翻译短语表中的翻译分值SPT(ce)为SPT(ce)=Sdict (ce) Xrate ;如果所述翻译短语表中已经包含所述被添加的词对,则不做添加处理;所述Sdirf(Ce)为所述被添加的词对ce在所述翻译词典中的翻译分值,rate为从所述 翻译词典到所述翻译短语表的翻译分值比,10.根据权利要求8所述的方法,其特征在于,将所述目标领域的翻译词典整合到所述翻译短语表中包括 将所述目标领域的翻译词典中的词对添加到双语平行语料库中; 将所述双语平行语料库中的句对以词语为单位对齐; 对所述双语平行语料库中的句对进行短语对的抽取,基于对抽取的短语对的统计结果计算各短语对的翻译分值; 将抽取的短语对以及短语对的翻译分值构成所述翻译短语表。11.根据权利要求10所述的方法,其特征在于,将所述目标领域的翻译词典中的词对添加到双语平行语料库中具体包括 将所述翻译词典中的词对复制N份后,再添加到所述双语平行语料库中,其中N为预设的正整数。12.根据权利要求2、6或7所述的方法,其特征在于,所述翻译基于预设的所述目标领域D的翻译表达模板执行; 其中所述目标领域D的翻译表达式模板中包括一个以上实例构成的实例集合; 所述实例为由第一语言表达式和对应第二语言表达式构成的表达式对。13.一种基于跨语言获取的搜索资源的搜索方法,其特征在于,该方法包括 A、接收来自用户的搜索请求query; B、对所述query进行需求识别,识别出所述query所属的领域; C、在所识别出领域对应的搜索资源库中进行搜索; D、将搜索结果返回给所述用户; 其中,所述搜索资源库是采用权利要求I所述方法获取的。14.根据权利要求13所述的方法,其特征在于,在所述搜索结果中如果不同来源的资源所提供同一类型信息的内容发生冲突,则从内容发生冲突的资源中选择置信度最高的资源包含在所述搜索结果中,或者,按照置信度从高到低在搜索结果中对内容发生冲突的资源进行排序。15.根据权利要求14所述的方法,其特征在于,资源的置信度由以下所列置信度类型中的一种或任意组合确定 资源的来源网站置信度、资源的来源语种置信度以及资源的翻译置信度。16.根据权利要求15所述的方法,其特征在于,资源的置信度按照如下公式确定 Mscored) = Yj^h ^r1) ;=1 其中,score (ri)为资源&的置信度,M为置信度类型数目,比(ri)为资源巧在第j种置信度类型的置信度,X ,为预设的各种置信度类型的权重参数。17.根据权利要求15或16所述的方法,其特征在于,资源的来源语种置信度依据资源来源的语种与所述query所映射的语种之间的关系确定,具体为设置来源于所述query所映射语种的资源的来源语种置信度高于来源于其他语种的资源的来源语种置信度; 其中,所述query所映射语种的确定方法为 提取所述query的特征,将所述query的特征与预先训练出的各语种的特征向量进行相似度计算,确定相似度超过预设的相似度阈值的语种为所述query所映射的语种。18.根据权利要求15所述的方法,其特征在于,所述资源的翻译置信度由在获取所述资源时使用的翻译模型中所述资源对应的翻译分值以及所述资源在语言模型中对应的分值确定。19.一种跨语言获取搜索资源的装置,其特征在于,该装置包括领域确定单元、目标特征确定单元、特征抽取单元、资源筛选单元和资源添加单元; 所述领域确定单元,用于确定目标领域D ; 所述目标特征确定单元,用于利用目标领域D的已有第一语言资源Set (C),结合特征抽取技术以及从第一语言到第二语言的机器翻译技术,确定目标领域D的第二语言特征向量 FeaVec_F ; 所述特征抽取单元,用于将第二语言的通用语料资源库Cor(F)中的各资源作为被抽取资源进行特征抽取,得到各资源的特征向量FeaVe^di ; 所述资源筛选单元,用于从所述Cor(F)中筛选出特征向量FeaVec_di与所述FeaVec_F之间相似度超过预设阈值T的资源Se...

【专利技术属性】
技术研发人员:赵世奇柴春光吴华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1