语义类别分类制造技术

技术编号:19247212 阅读:18 留言:0更新日期:2018-10-24 08:58
根据示例实施例,描述了基于序列语义嵌入和并行学习的大规模类别分类。在一个示例中,通过在以下二者之间进行比较来识别一个或多个最接近的匹配:(i)与发布的至少一部分相对应的发布语义向量,所述发布语义向量基于将所述发布的所述至少一部分投射到语义向量空间中的第一机器学习模型,以及(ii)与来自多个类别的相应类别相对应的多个类别向量。

【技术实现步骤摘要】
【国外来华专利技术】语义类别分类相关申请的交叉引用本申请要求2016年2月11日提交的美国临时申请No.62/293,922的优先权,其全部内容通过引用并入本文。
本公开的实施例总体上涉及基于序列语义嵌入和并行学习的大规模类别分类和推荐系统(CatReco)。
技术介绍
发布语料库中的发布的适当分类对于帮助系统响应于用户的查询来提供发布(例如,产品和/或服务)推荐是重要的。系统使用发布描述来对发布编索引,使得潜在用户可以通过用户的查询来定位发布。附图说明各个所附附图仅示出了本公开示例实施例,并且不可以被认为限制其范围。图1是示出了根据一些示例实施例的联网系统的框图。图2是根据示例实施例,更详细地示出图1的列表系统的框图。图3A和图3B是根据示例实施例的来自列表系统的用户界面,该用户界面用于提供列表标题并且为列表标题选择类别。图4示出了将源语义向量与最接近的目标语义向量进行匹配的简单示例。图5A示出了使用SSE(序列语义嵌入)为用户提供至少一个CatReco的流程图。图5B示出了根据示例实施例的使用SSE向服务提供叶类别(LeafCat)标识(ID)的回调集的流程图。图6A示出了根据示例实施例的用于执行运行时过程的流程图,该运行时过程用于执行针对基本SSECatReco服务的运行时分类过程。图6B示出了根据示例实施例的用于执行离线过程的流程图,该离线过程用于预先计算基本SSECatReco服务的目标的语义向量。图6C示出了根据另一示例实施例的用于执行基本SSECatReco服务的运行时分类过程的流程图。图6D示出了根据示例实施例的用于执行基本SSECatReco服务(包括在线和离线组件)的流程图。图7示出了根据示例实施例的用来训练用于基本SSECatReco服务的SSE模型的方法的流程图。图8示出了根据示例实施例的导出已标记训练数据的方法的流程图,该已标记训练数据用于训练在基本SSECatReco服务中使用的SSE模型。图9示出了根据另一示例实施例的用来训练用于基本SSECatReco服务的SSE模型的流程图。图10示出了根据示例实施例的用于执行SSE统计语言建模(SLM)-梯度增强机器(GBM)运行时过程以生成CatReco的流程图。图11示出了根据示例实施例的用于执行SSE-SLM重新排序运行时过程的流程图。图12示出了根据一个示例实施例的用于执行SSE-SLM-GBM离线训练过程的第一部分的流程图。图13示出了根据一个示例实施例的用于执行SSE-SLM-GBM离线训练过程的第二部分的流程图。图14是示出根据一些示例实施例的可以安装在机器上的软件架构的示例的框图。图15示出了根据示例实施例的具有计算机系统的形式的机器的示图表示,在所述计算机系统中,可以执行一组指令以使所述机器执行本文讨论的方法中的任意一个或多个方法。图16示出了比较和识别发布的相关类别的示例方法。本文提供的标题仅为方便起见,而不一定影响所使用的术语的范围或含义。具体实施方式以下描述包括体现本公开的示意性实施例的系统、方法、技术、指令序列和计算机器程序产品。在下文的描述中,为了解释的目的,阐述了很多细节以提供对本专利技术主题的各种实施例的理解。然而,本领域技术人员将显而易见的是,本专利技术主题的实施例可以在没有这些具体细节的情况下实施。一般地,不必详细示出众所周知的指令实例、协议、结构和技术。在发布语料库中,建立了非常大规模的类别,以按照精细的粒度组织数十亿的不同发布(产品报价)。类别分类系统通常用于帮助卖方基于少量的标题关键词对发布列表进行分类。各种实施例描述了并行学习框架,以从无监督的用户日志中自动地导出极大规模的已标记数据(例如,数十亿),并将它们用于监督机器学习模型训练。示例实施例使用序列语义嵌入(SSE)方法将列表标题(例如,列出的发布的标题关键字)和类别树路径编码为语义向量表示,如<源序列,目标序列>对。源语义向量表示和目标语义向量表示的向量距离可被用作相似性度量,以获得分类回调候选集。分类回调候选集可以表示由LeafCatID标识的类别树中的多个LeafCat。在其他实施例中,训练每个类别(例如,LeafCat)的语言模型,使得可以利用来自句子嵌入相似性分数(使用SSE建模导出)和语言模型复杂度分数(使用统计语言建模(SLM)导出)的梯度增强机器(GBM)整合信号对分类回调候选集进行重新排序。通过这种组合的SSE-SLM-GBM方法生成的类别推荐(CatReco)结果显得远远优于其他各种方法。例如,使用覆盖19000个以上的不同LeafCat的370,000个以上样本的基准测试结果显示出(超过生产基线(productionbaseline)的)以下改进:系统响应时间快了10倍以上(例如,~200ms至~20ms),并且分类错误对于排名第1的CatReco减少了24.8%,对于排名前3的CatReco减少了31.12%,且对于排名前10的CatReco减少了54.52%。CatReco的准确性,特别是排名第1的推荐叶类别(LeafCat)的准确性可直接影响用户(例如买方和/或卖方)的整体体验,因为有关发布的几个重要信息,例如卖方标签、列表费用和产品匹配对于发布而言依赖于LeafCat。此外,识别排名第1的推荐LeafCat的准确性通常是企业对消费者(B2C)自动分类流程的瓶颈。发布系统排名第1的CatReco的准确性会对商品总量(GMV)产生直接影响,商品总量指示在特定时间范围内通过特定市场销售的商品的总销售美元价值。参考图1,示出了高级的基于客户端-服务器的网络架构100的示例实施例。具有基于网络的发布或支付系统的示例形式的联网系统102经由网络104(例如互联网或广域网(WAN))向一个或多个客户端设备110提供服务器侧功能。图1示出了例如在客户端设备110上执行的网络客户端112(例如浏览器,比如由华盛顿州雷德蒙德的Microsoft公司开发的Internet浏览器)、客户端应用114和编程客户端116。客户端设备110可以包括但不限于:移动电话、台式计算机、膝上型计算机、个人数字助理(PDA)、智能电话、平板计算机、超级本、上网本、笔记本计算机、多处理器系统、基于微处理器或可编程的消费电子产品、游戏机、机顶盒或用户可以用来访问联网系统102的任何其他通信设备。在一些实施例中,客户端设备110可以包括显示模块(未示出)以显示信息(例如,以用户接口的形式)。在另一些实施例中,客户端设备110可以包括触摸屏、加速度计、陀螺仪、相机、麦克风、全球定位系统(GPS)设备等中的一个或多个。客户端设备110可以是用于执行涉及联网系统102内的数字发布的交易的用户设备。在一个实施例中,联网系统102是基于网络的市场,其响应于对产品列表的请求,发布包括在基于网络的市场上可用的产品的列表的公告,并且管理这些市场交易的支付。网络104的一个或多个部分可以是adhoc网络、内联网、外联网、虚拟专用网(VPN)、局域网(LAN)、无线LAN(WLAN)、WAN、无线WAN(WWAN)、城域网(MAN)、互联网的一部分、公共电话交换网(PSTN)的一部分、蜂窝电话网、无线网络、WiFi网络、WiMax网络、另一类型的网络或两本文档来自技高网...

【技术保护点】
1.一种方法,包括:利用一个或多个处理器访问来自用户设备的请求将发布添加到发布语料库并且识别所述发布的相关类别集合的请求;利用所述一个或多个处理器,通过在以下二者之间进行比较来识别一个或多个最接近的匹配:(i)与所述发布的至少一部分相对应的发布语义向量,所述发布语义向量基于将所述发布的所述至少一部分投射到语义向量空间中的第一机器学习模型,以及(ii)与来自多个类别的相应类别相对应的多个类别向量,所述多个类别向量基于将所述多个类别投射到所述语义向量空间中的第二机器学习模型,所述多个类别是所述发布在所述发布语料库中的分类;以及使得在所述用户设备上显示所述一个或多个最接近的匹配,作为所述发布语料库的所述相关类别集合。

【技术特征摘要】
【国外来华专利技术】2016.02.11 US 62/293,9221.一种方法,包括:利用一个或多个处理器访问来自用户设备的请求将发布添加到发布语料库并且识别所述发布的相关类别集合的请求;利用所述一个或多个处理器,通过在以下二者之间进行比较来识别一个或多个最接近的匹配:(i)与所述发布的至少一部分相对应的发布语义向量,所述发布语义向量基于将所述发布的所述至少一部分投射到语义向量空间中的第一机器学习模型,以及(ii)与来自多个类别的相应类别相对应的多个类别向量,所述多个类别向量基于将所述多个类别投射到所述语义向量空间中的第二机器学习模型,所述多个类别是所述发布在所述发布语料库中的分类;以及使得在所述用户设备上显示所述一个或多个最接近的匹配,作为所述发布语料库的所述相关类别集合。2.根据权利要求1所述的方法,其中,所述类别是叶类别。3.根据权利要求1所述的方法,其中,所述类别是在所述多个类别的类别树中的根级之下的至少两个树级的类别路径。4.根据权利要求1所述的方法,其中,所述发布的所述至少一部分包括所述发布的标题。5.根据权利要求1所述的方法,其中,在从所述发布语料库的先前添加的发布中自动导出的数据上训练所述第一机器学习模型和所述第二机器学习模型中的至少一个。6.根据权利要求1所述的方法,其中,在子词级和字符级别中的一个或多个处训练所述第一机器学习模型和所述第二机器学习模型中的至少一个,以减少运行时的词汇外术语。7.根据权利要求1所述的方法,还包括:向所述多个类别添加新类别,而不在所述新类别上重新训练所述第二机器学习模型,其中,被识别为一个或多个最接近的匹配的所述一个或多个最接近的匹配包括所述新类别。8.一种计算机,包括:存储指令的存储设备;以及一个或多个硬件处理器,由所述指令配置为执行包括以下各项的操作:利用一个或多个处理器访问来自用户设备的请求将发布添加到发布语料库并且识别所述发布的相关类别集合的请求;利用所述一个或多个处理器,通过在以下二者之间进行比较来识别一个或多个最接近的匹配:(i)与所述发布的至少一部分相对应的发布语义向量,所述发布语义向量基于将所述发布的所述至少一部分投射到语义向量空间中的第一机器学习模型,以及(ii)与来自多个类别的相应类别相对应的多个类别向量,所述多个类别向量基于将所述多个类别投射到所述语义向量空间中的第二机器学习模型,所述多个类别是所述发布在所述发布语料库中的分类;以及使得在所述用户设备上显示所述一个或多个最接近的匹配,作为所述发布语料库的所述相关类别集合。9.根据权利要求8所...

【专利技术属性】
技术研发人员:刘明宽
申请(专利权)人:电子湾有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1