生成用于搜索内容的分类模型方法、装置和数据处理系统制造方法及图纸

技术编号:16472576 阅读:25 留言:0更新日期:2017-10-29 00:15
根据一个实施方案,收集一组预定查询,其中所述预定查询中的每一个均与预定类别(例如,网站的特定医疗类别或特定类型)相关联。对于所述预定查询中的每一个,使用与所述预定类别对应的注释词典来注释所述预定查询。基于所述预定查询的注释,从所述预定查询提取一个或多个特征。基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型。利用所述分类模型对用户进行分类以进行信息检索。

A classification model, method, device and data processing system for searching content

According to an implementation scheme, a set of predetermined queries is collected, wherein each of the predetermined queries is associated with a predetermined category (e.g., a particular medical category or a particular type of site). For each of the predetermined queries, the annotated dictionary is annotated with the annotated dictionary corresponding to the predetermined category. Based on the annotations of the predetermined query, one or more features are extracted from the predetermined query. A classification model corresponding to the predetermined category is trained and generated based on the predetermined query and the features associated with the predetermined query. The classification model is used to classify the users for information retrieval.

【技术实现步骤摘要】
生成用于搜索内容的分类模型方法、装置和数据处理系统
本专利技术的实施方案总体涉及搜索内容。更特别地,本专利技术的实施方案涉及训练和创建分类模型并使用其对用户进行分类以进行医疗信息检索。
技术介绍
大多数搜索引擎通常在其操作期间执行从运行于客户端装置上的浏览器来搜索网页。搜索引擎接收由用户输入的搜索词,并检索与所述搜索词相关联的网页搜索结果列表。搜索引擎基于某些准则将搜索结果显示为搜索列表的一系列子集。在搜索操作期间使用的一般准则是搜索词是完整地还是部分地出现在给定网页上、搜索字串出现在搜索结果中的次数、字母次序等。此外,用户可以通过点击鼠标按钮来决定打开链接以打开并浏览。可由搜索引擎来监控和收集用户与搜索结果的一些互动和/或用户信息,以随后提供更好的搜索。通常,响应于搜索查询,执行搜索以识别和检索内容项目列表。接着将内容项目传回到搜索请求方。根据搜索引擎的质量,转向用户的内容项目可能是或可能不是用户实际想要的内容项目。为了向用户提供更好的内容服务,重要的是要知道或预测出用户想要什么,特别是在搜索医疗信息的领域中。对医学搜索查询的语义理解对于下面的检索系统来说是重要的。常规的搜索检索系统仅使用令牌化查询来匹配关键字,这未反映出搜索查询的真实意图。用户的医疗查询可反映出用户在医疗阶段的不同方面对获得答复的兴趣。缺乏用于确定用户的查询意图的有效方式。
技术实现思路
本申请的目的在于提供一种生成用于搜索内容的分类模型的计算机实施方法、装置和数据处理系统,以及一种用于搜索内容的计算机实施方法。根据一个方面,一种生成用于搜索内容的分类模型的计算机实施方法可包括:接收一组预定查询,所述预定查询中的每一个与预定类别相关联;对于所述预定查询中的每一个:使用与所述预定类别对应的注释词典来注释所述预定查询,以及基于所述预定查询的注释,从所述预定查询提取一个或多个特征;以及基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型,其中利用所述分类模型对用户进行分类以进行信息检索。根据另一个方面,一种生成用于搜索内容的分类模型的装置可包括:接收装置,接收一组预定查询,所述预定查询中的每一个与预定类别相关联;注释装置,使用与所述预定类别对应的注释词典来注释所述预定查询中的每一个;提取装置,基于所述预定查询中每一个的注释从所述预定查询中的每一个提取一个或多个特征;以及训练和生成装置,基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型,其中利用所述分类模型对用户进行分类以进行信息检索。根据又一个方面,一种数据处理系统可包括根据本申请实施方案的生成用于搜索内容的分类模型的装置。根据再一个方面,一种用于搜索内容的计算机实施方法可包括:从用户的客户端装置接收第一搜索查询,所述第一搜索查询具有一个或多个关键字;响应于所述第一搜索查询,使用多个注释词典来注释所述第一搜索查询的关键字,每个注释词典与多个类别中的一个对应;从所述第一搜索查询的经注释的关键字提取特征;由对所提取的特征应用多个分类模型来对所述用户进行分类;基于所述用户的分类在内容数据库中执行搜索以检索包含一个或多个内容项目的列表;以及将所述包含一个或多个内容项目的列表传送到所述客户端装置。附图说明本专利技术的实施方案在附图的各图中以举例而非限制的方式示出,附图中的相同参考数字指示类似元件。图1A和图1B是示出根据本专利技术一些实施方案的用于搜索图像的系统配置的示例的框图。图2是示出根据本专利技术一个实施方案的用户分类模型训练系统的示例的框图。图3是示出根据本专利技术一个实施方案的训练分类模型的处理流程的图。图4是示出根据本专利技术一个实施方案的用于注释和特征提取的过程的图。图5是示出根据本专利技术一个实施方案的内容搜索系统的框图。图6是示出根据本专利技术一个实施方案的使用分类模型搜索内容的处理流程的图。图7是示出根据本专利技术一个实施方案的训练分类模型的过程的流程图。图8是示出根据本专利技术一个实施方案的使用分类模型对用户进行分类的过程的流程图。图9是示出根据一个实施方案的数据处理系统的框图。具体实施方式以下将参考所讨论的细节来描述本专利技术的各种实施方案和方面,附图将示出所述各种实施方案。以下描述和附图是对本专利技术的说明,而不应当解释为限制本专利技术。描述了许多特定细节以便提供对本专利技术各种实施方案的全面理解。然而,在某些示例中,并未描述众所周知的或常规的细节以便提供对本专利技术实施方案的简洁讨论。本说明书中对“一个实施方案”或“一实施方案”的提及意味着结合该实施方案所描述的特定特征、结构或特性可包括在本专利技术的至少一个实施方案中。短语“在一个实施方案中”在本说明书中各个地方的出现不必全部是指同一实施方案。根据一些实施方案,提供了一种用户分类系统(例如,医疗查询意图分类)以将医疗搜索查询分类成用户类别,其可用于导出用户意图。用户类别或意图可以用作医疗实践阶段的细粒度类别,其中查询答复映射到所述细粒度类别。分类系统利用离线的已知数据集来训练分类模型以将查询分类成预定类别(例如,意图类别)集。为预定类别,例如医疗信息检索领域、治疗、疾病、症状等构建注释词典集。基于从与预定类别相关联的网站爬获的数据构建注释词典。在训练期间,根据已知的搜索查询确定特征,其表示某些特征的存在。用于查询的特征至少包括字的n元语法、预定类别(例如,医疗类别)和相对令牌位置信息。因此,将每个查询转换成用于训练的特征集。根据本专利技术的一个方面,收集预定查询集,其中预定查询中的每一个均与预定类别(例如,网站的特定医疗类别或特定类型)相关联。对于预定查询中的每一个而言,使用与预定类别相应的注释词典注释预定查询。基于预定查询的注释从预定查询提取一个或多个特征。基于预定查询以及与预定查询相关联的特征训练和生成与预定类别相应的分类模型。利用分类模型对用户进行分类以进行信息检索。根据本专利技术的另一个方面,从用户的客户端装置接收第一搜索查询,所述第一搜索查询具有一个或多个关键字。响应于第一搜索查询,使用预定注释词典集注释搜索查询的关键字。每个注释词典与预定类别中的一个相对应。从第一搜索查询的所述注释的关键字提取特征。由对所述提取的特征应用一个或多个分类模型来对用户进行分类。基于用户的分类在内容数据库中执行搜索以检索一个或多个内容项目列表。将所述一个或多个内容项目列表传送到客户端装置。图1A和图1B是示出根据本专利技术一些实施方案的用于搜索图像的系统配置的示例的框图。参考图1A,系统100包括但不限于通过网络103通信地联接到服务器104的一个或多个客户端装置101-102。客户端装置101-102可以是任何类型的客户端装置,诸如,个人计算机(例如,台式计算机、膝上型计算机和平板计算机)、“薄”客户端、个人数字助理(PDA)、支持网络的器具、智能手表或移动电话(例如,智能手机)等。网络103可以是任何类型的网络,诸如有线或无线的局域网(LAN)、诸如互联网的广域网(WAN)或其组合。服务器104可以是任何类型的服务器或服务器集群,诸如网络或云服务器、应用服务器、后端服务器或其组合。在一个实施方案中,服务器104包括但不限于搜索引擎120、用户分类模块或系统110和用户分类模型115。服务器104还包括允许客户端(诸如,客户端本文档来自技高网...
生成用于搜索内容的分类模型方法、装置和数据处理系统

【技术保护点】
一种生成用于搜索内容的分类模型的计算机实施方法,所述方法包括:接收一组预定查询,所述预定查询中的每一个与预定类别相关联;对于所述预定查询中的每一个:使用与所述预定类别对应的注释词典来注释所述预定查询,以及基于所述预定查询的注释,从所述预定查询提取一个或多个特征;以及基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型,其中利用所述分类模型对用户进行分类以进行信息检索。

【技术特征摘要】
2016.04.14 US 15/099,5141.一种生成用于搜索内容的分类模型的计算机实施方法,所述方法包括:接收一组预定查询,所述预定查询中的每一个与预定类别相关联;对于所述预定查询中的每一个:使用与所述预定类别对应的注释词典来注释所述预定查询,以及基于所述预定查询的注释,从所述预定查询提取一个或多个特征;以及基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型,其中利用所述分类模型对用户进行分类以进行信息检索。2.如权利要求1所述的方法,其中所述预定类别为多个预定类别中的一个,其中所述方法还包括:对于所述多个预定类别中的每一个,迭代执行接收一组预定查询的操作、注释所述预定查询中每一个的操作以及从所述预定查询中的每一个提取特征的操作;以及生成多个分类模型,每一个分类模型与所述多个预定类别中的一个对应。3.如权利要求1所述的方法,其中所述注释词典包含与所述预定类别相关联的一组关键字,所述一组关键字是从与所述预定类别相关联的一个或多个预定内容服务器收集的。4.如权利要求1所述的方法,其中从所述预定查询提取一个或多个特征包括:从所述预定查询的一个或多个关键字提取一个或多个位置特征,其中每个位置特征指示关键字在所述预定查询内的位置。5.如权利要求4所述的方法,还包括从所述预定查询的一个或多个关键字提取一个或多个字的N元语法特征。6.如权利要求5所述的方法,还包括从所述预定查询的一个或多个关键字提取一个或多个注释特征,其中每个注释特征指示是否在所述注释词典中找到了对应的关键字。7.如权利要求2所述的方法,还包括:从用户的客户端装置接收第一搜索查询,所述第一搜索查询具有一个或多个关键字;响应于所述第一搜索查询,使用多个注释词典来注释所述第一搜索查询的关键字;从所述第一搜索查询的所注释的关键字提取特征;以及由对所提取的特征应用所述多个分类模型来对所述用户进行分类。8.如权利要求7所述的方法,还包括:基于所述用户的分类,在内容数据库中执行搜索以检索包含一个或多个内容项目的列表;以及将所述包含一个或多个内容项目的列表传送到所述客户端装置。9.一种生成用于搜索内容的分类模型的装置,包括:接收装置,接收一组预定查询,所述预定查询中的每一个与预定类别相关联;注释装置,使用与所述预定类别对应的注释词典来注释所述预定查询中的每一个;提取装置,基于所述预定查询中每一个的注释从所述预定查询中的每一个提取一个或多个特征;以及训练和生成装置,基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型,其中利用所述分类模型对用户进行分类以进行信息检索。10.如权利要求9所述的装置,其中所述预定类别为多个预定类别中的一个,其中所述装置还包括:迭代执行装置,对于所述多个预定类别中的每一个,迭代执行所述接收装置的操作、所述注释装置的操作以及所述提取装置的操作;以及生成装置,生成多个分类模型,每一个分类模型与所述多个预定类别中的一个...

【专利技术属性】
技术研发人员:张伟德王俊晴刘博聪朱伟铖
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1