一种跨语言搜索方法和装置、一种用于跨语言搜索的装置制造方法及图纸

技术编号:18497091 阅读:54 留言:0更新日期:2018-07-21 20:10
本发明专利技术实施例提供了一种跨语言搜索方法和装置、一种用于跨语言搜索的装置,其中的方法具体包括:获取第一语种的搜索词;根据所述搜索词,获取第二语种的搜索结果;针对每个第二语种的搜索结果,执行以下步骤:确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。本发明专利技术实施例能够提高翻译搜索结果的准确度。

A cross language search method and device, a device for cross language search.

The embodiment of the invention provides a cross language search method and device, and a device for cross language search. The method specifically includes: obtaining a search term for the first language; obtaining the search results of the second language according to the search term; and for the search results of each second language, the following steps are executed: determine the following steps: The target translation model corresponding to the presupposition display parts of the search results; the target translation model is used to obtain the translation search results corresponding to the presupposed display parts of the search results, and the translation search results corresponding to the presupposed display parts of the search results are displayed to the user. The embodiment of the invention can improve the accuracy of translation search results.

【技术实现步骤摘要】
一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
本专利技术涉及信息搜索
,特别是涉及一种跨语言搜索方法和装置、一种用于跨语言搜索的装置。
技术介绍
随着互联网信息的不断增长,人们对于信息搜索提出了更高的要求,不再满足于在同一种语种数据库中搜索,而要求获取多种语种数据。例如,如果用户输入的搜索词(query))为“特朗普”,则中文数据库中的搜索可能并不能最大程度地满足用户需求,源自欧美网站的英文数据库中可能具有更优、更多的搜索结果。跨语言搜索技术结合了信息检索技术和机器翻译技术。现有的跨语言搜索方案的实现过程具体可以包括:首先,通过机器翻译技术将源语言形式的搜索词转换为目标语言形式的搜索词,然后,分别依据源语言形式的搜索词和目标语言形式的搜索词,在对应的单语言数据库中进行信息检索,以得到多语言的搜索结果,其中,多语言的搜索结果可以包括:源语言的搜索结果和目标语言的搜索结果。为了满足不具备目标语言阅读能力、或者目标语言的阅读能力有限的用户的需求,现有方案可以利用翻译模型,对目标语言的搜索结果进行翻译,以得到源语言形式的翻译搜索结果。专利技术人在实施本专利技术实施例的过程中发现,现有方案至少存在如下问题:现有方案通常采用通用翻译模型对目标语言的搜索结果进行翻译,该通用翻译模型的局限性容易影响翻译搜索结果的准确度,也即,现有方案中得到的翻译搜索结果的准确度较低。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的跨语言搜索方法、跨语言搜索装置及用于跨语言搜索的装置,本专利技术实施例能够提高翻译搜索结果的准确度。为了解决上述问题,本专利技术公开了一种跨语言搜索方法,包括:获取第一语种的搜索词;根据所述搜索词,获取第二语种的搜索结果;针对每个第二语种的搜索结果,执行以下步骤:确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。可选地,所述确定与所述搜索结果的各预设展示部分相对应的目标翻译模型的步骤,包括:确定所述搜索结果包含的各预设展示部分对应的展示类型;依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型。可选地,若所述预设展示部分对应的展示类型为标题类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取标题翻译模型,所述标题翻译模型为依据标题语料训练得到;和/或,若所述预设展示部分对应的展示类型为摘要类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取摘要翻译模型,所述摘要翻译模型为依据摘要语料训练得到;和/或,若所述预设展示部分对应的展示类型为页面内容类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取页面内容翻译模型,所述内容翻译模型为依据预置页面内容语料训练得到。可选地,若所述预设展示部分为标题部分,则所述利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果的步骤,包括:识别所述标题部分所包含的预置符号;依据所述预置符号,将所述标题部分分割为多个语义单元;利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,以得到各语义单元对应的翻译结果;依据所述预置符号,对所述各语义单元对应的翻译结果进行组合,以得到所述标题部分对应的第一翻译搜索结果;所述第一翻译搜索结果包括所述预置符号。可选地,所述利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译的步骤,包括:分别将各语义单元及其对应的上下文输入至所述第一目标翻译模型,以得到所述第一目标翻译模型输出的各语义单元对应的翻译结果。可选地,若所述预设展示部分为摘要部分,则所述利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果的步骤,包括:从所述摘要部分中提取位于预置位置的目标内容;利用所述预置位置对应的第二目标翻译模型,对所述目标内容进行翻译,以得到对应的第二翻译搜索结果。可选地,所述方法还包括:确定所述搜索结果所属的目标类别;所述依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型包括:结合所述搜索结果所属的目标类别和各预设展示部分对应的展示类型,获取各预设展示部分相对应的目标翻译模型。可选地,所述确定所述搜索结果所属的目标类别的步骤,包括:分别将所述搜索结果包括的内容与各预置类别的词典进行匹配,以得到各预置类别对应的匹配率;将所有预置类别对应的匹配率中的最大者对应的预置类别,作为所述搜索结果所属的目标类别。可选地,所述确定所述搜索结果所属的目标预置类别的步骤,包括:将搜索结果包括的内容输入分类器,并将所述分类器输出的分类结果作为所述搜索结果所属的目标类别;其中,所述分类器为依据各预置类别的搜索结果样本训练得到。另一方面,本专利技术公开了一种跨语言搜索装置,包括:搜索词获取模块,用于获取第一语种的搜索词;搜索结果获取模块,用于根据所述搜索词,获取第二语种的搜索结果;搜索结果处理模块,用于对每个第二语种的搜索结果进行处理;所述搜索结果处理模块包括:翻译模型确定模块、翻译搜索结果获取模块以及翻译搜索结果展示模块;所述翻译模型确定模块,用于针对每个第二语种的搜索结果,确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;所述翻译搜索结果获取模块,用于利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;以及所述翻译搜索结果展示模块,用于向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。可选地,所述翻译模型确定模块包括:展示类型确定子模块和翻译模型获取子模块;其中,所述展示类型确定子模块,用于确定所述搜索结果包含的各预设展示部分对应的展示类型;所述翻译模型获取子模块,用于依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型。可选地,若所述预设展示部分对应的展示类型为标题类,则所述翻译模型获取子模块包括:第一翻译模型获取单元;所述第一翻译模型获取单元,用于获取标题翻译模型,所述标题翻译模型为依据标题语料训练得到;和/或,若所述预设展示部分对应的展示类型为摘要类,则所述翻译模型获取子模块包括:第二翻译模型获取单元;所述第二翻译模型获取单元,用于获取摘要翻译模型,所述摘要翻译模型为依据摘要语料训练得到;和/或,若所述预设展示部分对应的展示类型为页面内容类,则所述翻译模型获取子模块包括:第三翻译模型获取单元;所述第三翻译模型获取单元,用于获取页面内容翻译模型,所述内容翻译模型为依据预置页面内容语料训练得到。可选地,若所述预设展示部分为标题部分,则所述翻译搜索结果获取模块包括:识别子模块、分割子模块、第一翻译子模块和组合子模块;其中,所述识别子模块,用于识别所述标题部分所包含的预置符号;所述分割子模块,用于依据所述预置符号,将所述标题部分分割为多个语义单元;所述第一翻译子模块,用于利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,以得到各语义单元对应的翻译结果;所述组合子模块,用于依据所述预置符号,对所述各语义单元对应的翻译结果进行组合,以得到所述标题部分对应的第一翻译搜索结果;所述第一翻译搜索结果包括所述预置符号。可选地,所述第一翻译子模块包括本文档来自技高网...

【技术保护点】
1.一种跨语言搜索方法,其特征在于,包括:获取第一语种的搜索词;根据所述搜索词,获取第二语种的搜索结果;针对每个第二语种的搜索结果,执行以下步骤:确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。

【技术特征摘要】
1.一种跨语言搜索方法,其特征在于,包括:获取第一语种的搜索词;根据所述搜索词,获取第二语种的搜索结果;针对每个第二语种的搜索结果,执行以下步骤:确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。2.根据权利要求1所述的方法,其特征在于,所述确定与所述搜索结果的各预设展示部分相对应的目标翻译模型的步骤,包括:确定所述搜索结果包含的各预设展示部分对应的展示类型;依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型。3.根据权利要求2所述的方法,其特征在于,若所述预设展示部分对应的展示类型为标题类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取标题翻译模型,所述标题翻译模型为依据标题语料训练得到;和/或,若所述预设展示部分对应的展示类型为摘要类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取摘要翻译模型,所述摘要翻译模型为依据摘要语料训练得到;和/或,若所述预设展示部分对应的展示类型为页面内容类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取页面内容翻译模型,所述内容翻译模型为依据预置页面内容语料训练得到。4.根据权利要求1至3中任一所述的方法,其特征在于,若所述预设展示部分为标题部分,则所述利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果的步骤,包括:识别所述标题部分所包含的预置符号;依据所述预置符号,将所述标题部分分割为多个语义单元;利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,以得到各语义单元对应的翻译结果;依据所述预置符号,对所述各语义单元对应的翻译结果进行组合,以得到所述标题部分对应的第一翻译搜索结果;所述第一翻译搜索结果包括所述预置符号。5.根据权利要求4所述的方法,其特征在于,所述利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译的步骤,包括:分别将各语义单元及其对应的上下文输入至所述第一目标翻译模型,以得到所述第一目标翻译模型输出的各语义单元对应的翻译结果。6.根据权利要求1至3中任一所述的方法,其特征在于,若所述预设展示部分为摘要部分,则所述利用所述目标翻译模型,获取所述搜索...

【专利技术属性】
技术研发人员:翟飞飞张骏许静芳薛征山祝天刚于恒
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1