The present invention provides a method, device and processing system for classifying keywords, and a method for generating classification models. The method used to associate the words used in search queries with categories aims to potentially generate more relevant search results by improving the relevance of the words used for the search. The machine learning method is implemented to train the classification model, and the machine learning method can include word embedding model. The classification models are trained to receive as input and create a word as the word vector output. Then these word vectors can be mapped into the vector space, and the method can then perform cluster analysis of the vectors. Based on cluster analysis can identify clusters, and each cluster may be associated with the corresponding category.
【技术实现步骤摘要】
归类关键字的方法、装置和处理系统、分类模型生成方法
本公开的实施方式涉及搜索关键字。更具体地,实施方式涉及使用经训练的模型对搜索关键字归类。
技术介绍
在在线环境中,搜索提供者常常允许内容提供者提供某些字或词以便显示与该内容提供者有关的搜索结果。这允许内容提供者为实际上或很可能对来自内容提供者的内容感兴趣的用户定制内容计划。尽管这种形式的内容搜索已经变得普遍,但建立在线内容计划对内容提供者来说仍然是困难的。例如,选择适当的词并做预算会是复杂且耗时的过程。此外,一旦创建了计划,内容提供者就必须投入大量时间来确定哪些字是最有效的以及用新的词来替代执行力低的字。换句话说,上述方法的大部分效用依赖于内容提供者选择最适当的词。例如,如果内容提供者具有多个单位,那么必须为每个单位开发特定的计划。然而,内容提供者常常没有资源来为每个单位设计这种特定计划。因此,常常选择词来应用到广泛范围的单位。结果,完全依赖于由内容提供者选择的词可能并不总是产生最相关的搜索结果。
技术实现思路
本申请的目的在于提供一种用于对关键字归类的计算机实现方法、一种用于对关键字归类的装置、一种处理系统和一种用 ...
【技术保护点】
一种用于对关键字归类的计算机实现方法,所述方法包括:从自客户端接收的查询提取一个或多个关键字,所述一个或多个关键字将被归类为多个预定类别中的一个;使用分类模型来确定与所述关键字相关联的类别,包括:将所述关键字应用于所述分类模型以创建至少一个关键字向量,在与所述分类模型相关联的字向量的多个集群当中,基于从所述集群的质心到所述至少一个关键字向量的位置的距离来确定最近集群,其中每个所述集群的所述质心对应于所述预定类别中的一个,以及将由所述最近集群表示的类别选择为与所述关键字相关联的类别;以及将所选类别传输到所述客户端作为查询结果的一部分。
【技术特征摘要】
2016.04.26 US 15/139,2541.一种用于对关键字归类的计算机实现方法,所述方法包括:从自客户端接收的查询提取一个或多个关键字,所述一个或多个关键字将被归类为多个预定类别中的一个;使用分类模型来确定与所述关键字相关联的类别,包括:将所述关键字应用于所述分类模型以创建至少一个关键字向量,在与所述分类模型相关联的字向量的多个集群当中,基于从所述集群的质心到所述至少一个关键字向量的位置的距离来确定最近集群,其中每个所述集群的所述质心对应于所述预定类别中的一个,以及将由所述最近集群表示的类别选择为与所述关键字相关联的类别;以及将所选类别传输到所述客户端作为查询结果的一部分。2.根据权利要求1所述的方法,其中,所述预定类别中的每个与多个医疗数据段中的一个相关联,且每个医疗数据段与医疗组织的多个医疗部门中的一个相关联。3.根据权利要求1所述的方法,还包括训练所述分类模型,包括:在与一群关键字相关联的字当中确定一组字;应用所述分类模型以将所述一组字转化成字向量;使用分层聚类将所述字向量聚类成集群;以及用所述预定类别中的对应一个来标明每个集群的质心。4.根据权利要求3所述的方法,其中,所述一组字是对于所关联的所述一群关键字独有的一组独特的字。5.根据权利要求4所述的方法,其中,所述一组独特的字在与所述一群关键字相关联的字当中基于所述字在所述一组独特的字中的频率通过确定词频-逆文档频率统计来确定。6.根据权利要求1所述的方法,其中,所述分类模型基于用于创建所述字向量的字嵌入模型。7.根据权利要求6所述的方法,其中,所述字嵌入模型基于Word2vec模型,所述Word2vec模型应用skip-gram或连续字袋过程来创建所述字向量。8.一种用于对关键字归类的装置括:从自客户端接收的查询提取一个或多个关键字的装置,其中,所述一个或多个关键字将被归类为多个预定类别中的一个;使用分类模型来确定与所述关键字相关联的类别的装置,包括:将所述关键字应用于所述分类模型以创建至少一个关键字向量的单元,在与所述分类模型相关联的字向量的多个集群当中,基于从所述集群的质心到所述至少一个关键字向量的位置的距离来确定最近集群的单元,其中每个所述集群的所述质心对应于所述预定类别中的一个,以及将由所述最近集群表示的类别选择为与所述关键字相关联的所述类别的单元;以及将所选类别传输到所述客户端作为查询结果的一部分的装置。9.根据权利要求8所述的用于对关键字归类的装置,其中,所述预定类别中的每个与多个医疗数据段中的一个相关联,且每个医疗数据段与医疗组织的多个医...
【专利技术属性】
技术研发人员:祝昱,李琳,
申请(专利权)人:百度美国有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。