According to an implementation scheme, a set of predetermined queries is collected, wherein each of the predetermined queries is associated with a predetermined category (e.g., a particular medical category or a particular type of site). For each of the predetermined queries, the annotated dictionary is annotated with the annotated dictionary corresponding to the predetermined category. Based on the annotations of the predetermined query, one or more features are extracted from the predetermined query. A classification model corresponding to the predetermined category is trained and generated based on the predetermined query and the features associated with the predetermined query. The classification model is used to classify the users for information retrieval.
【技术实现步骤摘要】
生成用于搜索内容的分类模型方法、装置和数据处理系统
本专利技术的实施方案总体涉及搜索内容。更特别地,本专利技术的实施方案涉及训练和创建分类模型并使用其对用户进行分类以进行医疗信息检索。
技术介绍
大多数搜索引擎通常在其操作期间执行从运行于客户端装置上的浏览器来搜索网页。搜索引擎接收由用户输入的搜索词,并检索与所述搜索词相关联的网页搜索结果列表。搜索引擎基于某些准则将搜索结果显示为搜索列表的一系列子集。在搜索操作期间使用的一般准则是搜索词是完整地还是部分地出现在给定网页上、搜索字串出现在搜索结果中的次数、字母次序等。此外,用户可以通过点击鼠标按钮来决定打开链接以打开并浏览。可由搜索引擎来监控和收集用户与搜索结果的一些互动和/或用户信息,以随后提供更好的搜索。通常,响应于搜索查询,执行搜索以识别和检索内容项目列表。接着将内容项目传回到搜索请求方。根据搜索引擎的质量,转向用户的内容项目可能是或可能不是用户实际想要的内容项目。为了向用户提供更好的内容服务,重要的是要知道或预测出用户想要什么,特别是在搜索医疗信息的领域中。对医学搜索查询的语义理解对于下面的检索系统来说是重要的。常规的搜索检索系统仅使用令牌化查询来匹配关键字,这未反映出搜索查询的真实意图。用户的医疗查询可反映出用户在医疗阶段的不同方面对获得答复的兴趣。缺乏用于确定用户的查询意图的有效方式。
技术实现思路
本申请的目的在于提供一种生成用于搜索内容的分类模型的计算机实施方法、装置和数据处理系统,以及一种用于搜索内容的计算机实施方法。根据一个方面,一种生成用于搜索内容的分类模型的计算机实施方法可包括:接收一组预 ...
【技术保护点】
一种生成用于搜索内容的分类模型的计算机实施方法,所述方法包括:接收一组预定查询,所述预定查询中的每一个与预定类别相关联;对于所述预定查询中的每一个:使用与所述预定类别对应的注释词典来注释所述预定查询,以及基于所述预定查询的注释,从所述预定查询提取一个或多个特征;以及基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型,其中利用所述分类模型对用户进行分类以进行信息检索。
【技术特征摘要】
2016.04.14 US 15/099,5141.一种生成用于搜索内容的分类模型的计算机实施方法,所述方法包括:接收一组预定查询,所述预定查询中的每一个与预定类别相关联;对于所述预定查询中的每一个:使用与所述预定类别对应的注释词典来注释所述预定查询,以及基于所述预定查询的注释,从所述预定查询提取一个或多个特征;以及基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型,其中利用所述分类模型对用户进行分类以进行信息检索。2.如权利要求1所述的方法,其中所述预定类别为多个预定类别中的一个,其中所述方法还包括:对于所述多个预定类别中的每一个,迭代执行接收一组预定查询的操作、注释所述预定查询中每一个的操作以及从所述预定查询中的每一个提取特征的操作;以及生成多个分类模型,每一个分类模型与所述多个预定类别中的一个对应。3.如权利要求1所述的方法,其中所述注释词典包含与所述预定类别相关联的一组关键字,所述一组关键字是从与所述预定类别相关联的一个或多个预定内容服务器收集的。4.如权利要求1所述的方法,其中从所述预定查询提取一个或多个特征包括:从所述预定查询的一个或多个关键字提取一个或多个位置特征,其中每个位置特征指示关键字在所述预定查询内的位置。5.如权利要求4所述的方法,还包括从所述预定查询的一个或多个关键字提取一个或多个字的N元语法特征。6.如权利要求5所述的方法,还包括从所述预定查询的一个或多个关键字提取一个或多个注释特征,其中每个注释特征指示是否在所述注释词典中找到了对应的关键字。7.如权利要求2所述的方法,还包括:从用户的客户端装置接收第一搜索查询,所述第一搜索查询具有一个或多个关键字;响应于所述第一搜索查询,使用多个注释词典来注释所述第一搜索查询的关键字;从所述第一搜索查询的所注释的关键字提取特征;以及由对所提取的特征应用所述多个分类模型来对所述用户进行分类。8.如权利要求7所述的方法,还包括:基于所述用户的分类,在内容数据库中执行搜索以检索包含一个或多个内容项目的列表;以及将所述包含一个或多个内容项目的列表传送到所述客户端装置。9.一种生成用于搜索内容的分类模型的装置,包括:接收装置,接收一组预定查询,所述预定查询中的每一个与预定类别相关联;注释装置,使用与所述预定类别对应的注释词典来注释所述预定查询中的每一个;提取装置,基于所述预定查询中每一个的注释从所述预定查询中的每一个提取一个或多个特征;以及训练和生成装置,基于所述预定查询以及与所述预定查询相关联的特征来训练和生成与所述预定类别对应的分类模型,其中利用所述分类模型对用户进行分类以进行信息检索。10.如权利要求9所述的装置,其中所述预定类别为多个预定类别中的一个,其中所述装置还包括:迭代执行装置,对于所述多个预定类别中的每一个,迭代执行所述接收装置的操作、所述注释装置的操作以及所述提取装置的操作;以及生成装置,生成多个分类模型,每一个分类模型与所述多个预定类别中的一个...
【专利技术属性】
技术研发人员:张伟德,王俊晴,刘博聪,朱伟铖,
申请(专利权)人:百度美国有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。