语义类别分类制造技术

技术编号：19247212 阅读：18 留言：0更新日期：2018-10-24 08:58

根据示例实施例，描述了基于序列语义嵌入和并行学习的大规模类别分类。在一个示例中，通过在以下二者之间进行比较来识别一个或多个最接近的匹配：(i)与发布的至少一部分相对应的发布语义向量，所述发布语义向量基于将所述发布的所述至少一部分投射到语义向量空间中的第一机器学习模型，以及(ii)与来自多个类别的相应类别相对应的多个类别向量。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】语义类别分类相关申请的交叉引用本申请要求2016年2月11日提交的美国临时申请No.62/293,922的优先权，其全部内容通过引用并入本文。
本公开的实施例总体上涉及基于序列语义嵌入和并行学习的大规模类别分类和推荐系统(CatReco)。
技术介绍
发布语料库中的发布的适当分类对于帮助系统响应于用户的查询来提供发布(例如，产品和/或服务)推荐是重要的。系统使用发布描述来对发布编索引，使得潜在用户可以通过用户的查询来定位发布。附图说明各个所附附图仅示出了本公开示例实施例，并且不可以被认为限制其范围。图1是示出了根据一些示例实施例的联网系统的框图。图2是根据示例实施例，更详细地示出图1的列表系统的框图。图3A和图3B是根据示例实施例的来自列表系统的用户界面，该用户界面用于提供列表标题并且为列表标题选择类别。图4示出了将源语义向量与最接近的目标语义向量进行匹配的简单示例。图5A示出了使用SSE(序列语义嵌入)为用户提供至少一个CatReco的流程图。图5B示出了根据示例实施例的使用SSE向服务提供叶类别(LeafCat)标识(ID)的回调集的流程图。图6A示出了根据示例实施例的用于执行运行时过程的流程图，该运行时过程用于执行针对基本SSECatReco服务的运行时分类过程。图6B示出了根据示例实施例的用于执行离线过程的流程图，该离线过程用于预先计算基本SSECatReco服务的目标的语义向量。图6C示出了根据另一示例实施例的用于执行基本SSECatReco服务的运行时分类过程的流程图。图6D示出了根据示例实施例的用于执行基本SSECatReco服务(包括在线和...

【技术保护点】
1.一种方法，包括：利用一个或多个处理器访问来自用户设备的请求将发布添加到发布语料库并且识别所述发布的相关类别集合的请求；利用所述一个或多个处理器，通过在以下二者之间进行比较来识别一个或多个最接近的匹配：(i)与所述发布的至少一部分相对应的发布语义向量，所述发布语义向量基于将所述发布的所述至少一部分投射到语义向量空间中的第一机器学习模型，以及(ii)与来自多个类别的相应类别相对应的多个类别向量，所述多个类别向量基于将所述多个类别投射到所述语义向量空间中的第二机器学习模型，所述多个类别是所述发布在所述发布语料库中的分类；以及使得在所述用户设备上显示所述一个或多个最接近的匹配，作为所述发布语料库的所述相关类别集合。

【技术特征摘要】
【国外来华专利技术】2016.02.11 US 62/293,9221.一种方法，包括：利用一个或多个处理器访问来自用户设备的请求将发布添加到发布语料库并且识别所述发布的相关类别集合的请求；利用所述一个或多个处理器，通过在以下二者之间进行比较来识别一个或多个最接近的匹配：(i)与所述发布的至少一部分相对应的发布语义向量，所述发布语义向量基于将所述发布的所述至少一部分投射到语义向量空间中的第一机器学习模型，以及(ii)与来自多个类别的相应类别相对应的多个类别向量，所述多个类别向量基于将所述多个类别投射到所述语义向量空间中的第二机器学习模型，所述多个类别是所述发布在所述发布语料库中的分类；以及使得在所述用户设备上显示所述一个或多个最接近的匹配，作为所述发布语料库的所述相关类别集合。2.根据权利要求1所述的方法，其中，所述类别是叶类别。3.根据权利要求1所述的方法，其中，所述类别是在所述多个类别的类别树中的根级之下的至少两个树级的类别路径。4.根据权利要求1所述的方法，其中，所述发布的所述至少一部分包括所述发布的标题。5.根据权利要求1所述的方法，其中，在从所述发布语料库的先前添加的发布中自动导出的数据上训练所述第一机器学习模型和所述第二机器学习模型中的至少一个。6.根据权利要求1所述的方法，其中，在子词级和字符级别中的一个或多个处训练所述第一机器学习模型和所述第二机器学习模型中的至少一个，以减少运行时的词汇外术语。7.根据权利要求1所述的方法，还包括：向所述多个类别添加新类别，而不在所述新类别上重新训练所述第二机器学习模型，其中，被识别为一个或多个最接近的匹配的所述一个或多个最接近的匹配包括所述新类别。8.一种计算机，包括：存储指令的存储设备；以及一个或多个硬件处理器，由所述指令配置为执行包括以下各项的操作：利用一个或多个处理器访问来自用户设备的请求将发布添加到发布语料库并且识别所述发布的相关类别集合的请求；利用所述一个或多个处理器，通过在以下二者之间进行比较来识别一个或多个最接近的匹配：(i)与所述发布的至少一部分相对应的发布语义向量，所述发布语义向量基于将所述发布的所述至少一部分投射到语义向量空间中的第一机器学习模型，以及(ii)与来自多个类别的相应类别相对应的多个类别向量，所述多个类别向量基于将所述多个类别投射到所述语义向量空间中的第二机器学习模型，所述多个类别是所述发布在所述发布语料库中的分类；以及使得在所述用户设备上显示所述一个或多个最接近的匹配，作为所述发布语料库的所述相关类别集合。9.根据权利要求8所...

【专利技术属性】
技术研发人员：刘明宽，
申请(专利权)人：电子湾有限公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人