The embodiment of the invention provides a cross language search method and device, and a device for cross language search. The method specifically includes: obtaining a search term for the first language; obtaining the search results of the second language according to the search term; and for the search results of each second language, the following steps are executed: determine the following steps: The target translation model corresponding to the presupposition display parts of the search results; the target translation model is used to obtain the translation search results corresponding to the presupposed display parts of the search results, and the translation search results corresponding to the presupposed display parts of the search results are displayed to the user. The embodiment of the invention can improve the accuracy of translation search results.
【技术实现步骤摘要】
一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
本专利技术涉及信息搜索
,特别是涉及一种跨语言搜索方法和装置、一种用于跨语言搜索的装置。
技术介绍
随着互联网信息的不断增长,人们对于信息搜索提出了更高的要求,不再满足于在同一种语种数据库中搜索,而要求获取多种语种数据。例如,如果用户输入的搜索词(query))为“特朗普”,则中文数据库中的搜索可能并不能最大程度地满足用户需求,源自欧美网站的英文数据库中可能具有更优、更多的搜索结果。跨语言搜索技术结合了信息检索技术和机器翻译技术。现有的跨语言搜索方案的实现过程具体可以包括:首先,通过机器翻译技术将源语言形式的搜索词转换为目标语言形式的搜索词,然后,分别依据源语言形式的搜索词和目标语言形式的搜索词,在对应的单语言数据库中进行信息检索,以得到多语言的搜索结果,其中,多语言的搜索结果可以包括:源语言的搜索结果和目标语言的搜索结果。为了满足不具备目标语言阅读能力、或者目标语言的阅读能力有限的用户的需求,现有方案可以利用翻译模型,对目标语言的搜索结果进行翻译,以得到源语言形式的翻译搜索结果。专利技术人在实施本专利技术实施例的过程中发现,现有方案至少存在如下问题:现有方案通常采用通用翻译模型对目标语言的搜索结果进行翻译,该通用翻译模型的局限性容易影响翻译搜索结果的准确度,也即,现有方案中得到的翻译搜索结果的准确度较低。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的跨语言搜索方法、跨语言搜索装置及用于跨语言搜索的装置,本专利技术实施例能够提高翻译搜索结果的准确 ...
【技术保护点】
1.一种跨语言搜索方法,其特征在于,包括:获取第一语种的搜索词;根据所述搜索词,获取第二语种的搜索结果;针对每个第二语种的搜索结果,执行以下步骤:确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。
【技术特征摘要】
1.一种跨语言搜索方法,其特征在于,包括:获取第一语种的搜索词;根据所述搜索词,获取第二语种的搜索结果;针对每个第二语种的搜索结果,执行以下步骤:确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。2.根据权利要求1所述的方法,其特征在于,所述确定与所述搜索结果的各预设展示部分相对应的目标翻译模型的步骤,包括:确定所述搜索结果包含的各预设展示部分对应的展示类型;依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型。3.根据权利要求2所述的方法,其特征在于,若所述预设展示部分对应的展示类型为标题类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取标题翻译模型,所述标题翻译模型为依据标题语料训练得到;和/或,若所述预设展示部分对应的展示类型为摘要类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取摘要翻译模型,所述摘要翻译模型为依据摘要语料训练得到;和/或,若所述预设展示部分对应的展示类型为页面内容类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取页面内容翻译模型,所述内容翻译模型为依据预置页面内容语料训练得到。4.根据权利要求1至3中任一所述的方法,其特征在于,若所述预设展示部分为标题部分,则所述利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果的步骤,包括:识别所述标题部分所包含的预置符号;依据所述预置符号,将所述标题部分分割为多个语义单元;利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,以得到各语义单元对应的翻译结果;依据所述预置符号,对所述各语义单元对应的翻译结果进行组合,以得到所述标题部分对应的第一翻译搜索结果;所述第一翻译搜索结果包括所述预置符号。5.根据权利要求4所述的方法,其特征在于,所述利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译的步骤,包括:分别将各语义单元及其对应的上下文输入至所述第一目标翻译模型,以得到所述第一目标翻译模型输出的各语义单元对应的翻译结果。6.根据权利要求1至3中任一所述的方法,其特征在于,若所述预设展示部分为摘要部分,则所述利用所述目标翻译模型,获取所述搜索...
【专利技术属性】
技术研发人员:翟飞飞,张骏,许静芳,薛征山,祝天刚,于恒,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。