使用语义含义向量的跨语言搜索制造技术

技术编号:18737538 阅读:28 留言:0更新日期:2018-08-22 05:51
公开了基于所记录的成员记录来聚类过程的系统和方法。服务器系统接收第一语言的搜索查询。服务器系统生成与搜索查询相关联的语义含义向量。服务器系统访问与项目记录相关联的多个语义含义向量,其中项目记录中的至少一些不是以第一语言编写的。对于与项目记录相关联的每个相应的语义含义向量,服务器系统将语义含义向量和与搜索查询相关联的语义含义向量相比较,并基于比较选择项目记录。对于所选择的每个项目记录,服务器系统确定该项目记录是否以第一语言编写,并且如果是,则自动将项目记录翻译为第一语言。服务器系统将一个或多个所选择的项目记录发送到客户端系统以供显示。

【技术实现步骤摘要】
【国外来华专利技术】使用语义含义向量的跨语言搜索相关申请的交叉引用本申请要求于2016年6月10日提交的美国专利申请No.15/179,314的优先权,其要求于2015年12月21日提交的美国临时专利申请No.62/270,489、2016年2月11日提交的美国临时专利申请No.62/293,922以及2016年2月11日提交的美国临时专利申请No.62/294,060的优先权。这些申请通过引用整体并入本文。
本公开的实施例总体上涉及跨语言在线搜索,并且更具体地,但非限制性地涉及改进用于跨界搜索用途的实时机器翻译。
技术介绍
电子和数字设备技术的兴起迅速改变了社会与媒体进行交互以及消费商品和服务的方式。数字技术使人们能够跨越国界和洲界迅速有效地相互联系。然而,尽管容易进行联系,但语言差异经常妨碍用户有效地交往。一个这样的领域是搜索和商务领域。语言障碍的一个解决方案是针对通信、搜索、产品列表等的自动机器翻译。但是,这样的翻译需要大量资源,并且翻译结果往往较差。附图说明各个所附附图仅示出了本公开示例实施例,并且不可以被认为限制其范围。图1是示出了根据一些示例实施例的包括基于网络的商务系统的各个功能组件的客户端-服务器系统环境的网络图。图2是进一步示出了根据一些示例实施例的客户端系统的框图。图3是进一步示出了根据一些示例实施例的基于网络的商务系统的框图。图4是示出了根据一些示例实施例的多语言搜索系统的框图。图5是示出了根据一些示例实施例的用于使用语义含义向量来执行单步搜索和翻译的方法的流程图。图6A-图6C是示出了根据一些示例实施例的用于使用语义含义向量来执行单步搜索和翻译的方法的流程图。图7是示出根据一些示例实施例的可以安装在机器上的软件架构的示例的框图。图8示出了根据示例实施例的具有计算机系统的形式的机器的示图表示,在所述计算机系统中,可以执行一组指令以使所述机器执行本文讨论的方法中的任意一个或多个方法。具体实施方式以下描述包括体现所公开主题的说明性示例实施例的系统、方法、技术、指令序列、和计算机器程序产品。在下文的描述中,为了解释的目的,阐述了很多细节以提供对本公开主题的各种示例实施例的理解。然而,本领域技术人员将显而易见的是,本专利技术主题的实施例可以在没有这些具体细节的情况下实施。一般地,不必详细示出众所周知的指令实例、协议、结构和技术。基于网络的商务系统允许用户通过计算机网络购买商品和服务。这些商品和服务通常可供许多国家中使用许多不同语言的人们使用。在销售多种产品和服务的基于网络的商务系统中,用户可以使用搜索查询遍历系统以找到他们正在寻找的东西。然而,如果用户的语言与产品或服务说明所使用的语言不同,则需要翻译搜索查询和说明。例如,系统可以首先将搜索查询翻译成期望的语言,使用翻译后的搜索查询执行对该语言的项目记录的搜索,然后将该项目记录(例如,产品列表)翻译成用户的原始语言以供显示。这种系统涉及多个翻译步骤,每个步骤都会给系统带来额外的复杂性。相反,基于网络的商务系统接收第一语言的搜索查询。基于网络的商务系统将搜索查询转换为语义含义向量,而不是将查询翻译成另一种语言。每个语义含义向量由代表搜索查询的一个或多个属性的多个值构成。转换是通过已建立的模型来完成的,该模型已经使用人工智能技术(例如,神经网络等)和过去的用户数据进行训练,以创建从搜索查询准确创建语义含义向量的模型。在一些示例实施例中,当产品被列在基于网络的商务系统中时,基于网络的商务系统使用训练模型将每个项目记录转换成语义含义向量,并将语义含义向量存储在基于网络的商务系统处的语义含义向量数据库中,而不考虑项目记录的原始语言。因此,当接收到搜索查询时,将搜索查询转换成语义含义向量并且将其与关联到项目记录的语义含义向量数据库进行比较。然后,基于网络的商务系统基于与项目记录相关联的每个语义含义向量和搜索查询的语义含义向量之间的匹配程度来对与项目记录相关联的每个语义含义向量进行打分或排序。在一些示例实施例中,可以计算距离得分。在一些示例实施例中,与项目记录相关联的语义含义向量数据库被组织成一个或多个主题分组,并且基于网络的商务系统仅选择一个主题分组来与搜索查询进行比较(以防止太多不必要的计算)。与搜索查询相关联的语义含义向量仅和与项目记录相关联的语义含义向量的有限集合进行比较。当一个或多个项目记录被识别为搜索查询的最佳匹配(基于比较每个项目记录的语义含义向量),基于网络的商务系统确定该项目记录是否使用与搜索查询相同的语言。对于被确定为具有与搜索查询不同的语言的任何项目记录,基于网络的商务系统将该项目记录翻译成适当的语言。然后将所有项目记录发送到客户端(例如,与提交搜索查询的用户相关联的计算机系统)以供显示。在一些示例实施例中,用户选择并购买返回结果中的一个。在一些示例实施例中,然后使用该购买事件来进一步改善创建搜索查询和项目记录的语义含义向量的模型。图1是示出了根据一些示例实施例的包括基于网络的商务系统120的各个功能组件的客户端-服务器系统环境100的网络图。客户端-服务器系统环境100至少包括客户端系统102和基于网络的商务系统120。一个或多个通信网络110将这些组件互连。通信网络100可以是各种网络类型中的任何一种,包括局域网(LAN)、广域网(WAN)、无线网、有线网、互联网、个人域网(PAN)或这些网络的组合。在一些示例实施例中,客户端系统102是电子设备,诸如个人计算机(PC)、膝上型电脑、智能电话、平板电脑、移动电话或任何其他能够与通信网络110通信的电子设备。客户端系统102包括由客户端系统102执行的一个或多个客户端应用104。在一些示例实施例中,客户端应用104包括由搜索应用、通信应用、生产力应用、游戏应用、文字处理应用或任何其他有用的应用组成的组中的一个或多个应用。客户端应用104包括网络浏览器。客户端系统102使用网络浏览器向基于网络的商务系统120发送请求以及从基于网络的商务系统120接收请求,并显示从基于网络的商务系统120接收的信息。在一些示例实施例中,客户端系统102包括专门定制用于与基于网络的商务系统120进行通信的应用(例如,iPhone应用)。在一些示例实施例中,基于网络的商务系统120是与一个或多个服务相关联的系统。在一些示例实施例中,客户端系统102向基于网络的商务系统120发送请求,请求与基于网络的商务系统120相关联的网页。例如,用户使用客户端系统102登录到基于网络的商务系统120,并向基于网络的商务系统120提交搜索查询。作为响应,基于网络的商务系统120产生搜索结果的列表(例如,匹配搜索查询的一个或多个项目记录),并向客户端系统102返回项目记录。客户端系统102接收项目记录数据(例如,描述一个或多个产品的数据),并将该数据显示在客户端系统102的用户界面中。在一些示例实施例中,如图1所示,基于网络的商务系统120通常基于三层结构,由前端层、应用逻辑层和数据层组成。相关计算机和互联网领域中的技术人员可以理解,图1中示出的每个模块或引擎表示一组可执行软件指令的和用于执行指令的相应硬件(例如,存储器和处理器)。为了避免不必要的细节,在图1中省略了对理解各种示例实施例来讲并不密切相关的各个模块和引擎。然而,本文档来自技高网...

【技术保护点】
1.一种方法,包括:从客户端系统接收第一语言的搜索查询;生成与所述搜索查询相关联的语义含义向量;访问与多个项目记录相关联的多个语义含义向量,其中,项目记录中的至少一些不是以第一语言编写的;对于与项目记录相关联的每个相应的语义含义向量:将所述相应的语义含义向量和与所述搜索查询相关联的语义含义向量相比较;以及基于与项目记录相关联的语义含义向量和与所述搜索查询相关联的语义含义向量之间的比较,选择一个或多个项目记录;对于所选择的每个相应的项目记录:确定相应的项目记录是否以第一语言编写;以及根据相应的项目记录没有以第一语言编写的确定,自动地将相应的项目记录翻译为第一语言;以及将一个或多个所选择的项目记录发送到客户端系统以供显示。

【技术特征摘要】
【国外来华专利技术】2015.12.21 US 62/270,489;2016.02.11 US 62/293,922;1.一种方法,包括:从客户端系统接收第一语言的搜索查询;生成与所述搜索查询相关联的语义含义向量;访问与多个项目记录相关联的多个语义含义向量,其中,项目记录中的至少一些不是以第一语言编写的;对于与项目记录相关联的每个相应的语义含义向量:将所述相应的语义含义向量和与所述搜索查询相关联的语义含义向量相比较;以及基于与项目记录相关联的语义含义向量和与所述搜索查询相关联的语义含义向量之间的比较,选择一个或多个项目记录;对于所选择的每个相应的项目记录:确定相应的项目记录是否以第一语言编写;以及根据相应的项目记录没有以第一语言编写的确定,自动地将相应的项目记录翻译为第一语言;以及将一个或多个所选择的项目记录发送到客户端系统以供显示。2.根据权利要求1所述的方法,其中,所述项目记录以多种不同的语言编写。3.根据权利要求1所述的方法,还包括:接收项目记录,以供包含在基于网络的商务系统中;生成接收到的项目记录的语义含义向量;以及将语义含义向量存储在基于网络的商务系统处的数据库中。4.根据权利要求3所述的方法,其中,存储语义含义向量还包括:分析与语义含义向量相关联的项目记录以识别与语义含义向量相关联的产品类别;以及组织数据库,使得每个语义含义向量与确定的产品类别相关联。5.根据权利要求1所述的方法,其中,将所述相应的语义含义向量和与所述搜索查询相关联的语义含义向量相比较还包括:计算与所述搜索查询相关联的语义含义向量和所述相应的语义含义向量之间的接近度得分。6.根据权利要求5所述的方法,还包括基于计算出的接近度得分对所述多个语义含义向量进行排序。7.根据权利要求6所述的方法,其中,至少部分地基于与每个语义含义向量相关联的排序来选择一个或多个项目记录。8.根据权利要求4所述的方法,其中,访问与多个项目记录相关联的多个语义含义向量还包括:分析所述搜索查询以识别与所述搜索查询相关联的一个或多个产品类别;以及访问与识别出的一个或多个产品类别相关联的语义含义向量。9.根据权利要求1所述的方法,其中,生成与所述搜索查询相关联的语义含义向量还包括:识别与所述搜索查询相关联的第一语言;选择与识别出的第一语言相关联的语义含义向量生成模型;以及使用所选择的语义含义向量生成模型来生成所述搜索查询的语义含义向量。10.一种系统,包括:一个或多个处理器;存储器;以及存储在所述存储器中的一个或多个程序,所述一个或多个程序用于由所述一个或多个处理器执行以进行:从客户端系统接收第一语言的搜索查询;生成与所述搜索查询相关联的语义含义向量;访问与多个项目记录相关联的多个语义含义向量,其中,项目记录中的至少一些不是以第一语言编写的;对于与项目记录相关联的每个相应的语义含义向量:将所述相应的语义含义向量和与所述搜索查询相关联的语义含义向量相比较;以及基于与项目记录相关联的语义含义向量和与所述搜...

【专利技术属性】
技术研发人员:塞尔秋克·科普鲁刘明宽叶夫根厄·马图索夫哈桑·沙瓦夫
申请(专利权)人:电子湾有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1