Including the embodiment of the invention provides a sample automatic query classification mining and game project recommendation method, by crawling web information extraction recognition search benchmark query word belongs to the game project category data from history; using query information and trigger a search page, access and query the game reference item category the first consistent query expansion; extracting the first query expansion trigger feature information of Web information search in second as the extended query; query expansion based on the first and two query expansion is the game project categories, identify the target query the goal of the game project categories, the game project in the goal of the game in the project categories recommended. Thus, a large number of query words and classified samples can be excavated, so that more query words can be covered when the game project is recommended, and the efficiency of the recommendation of the game items can be improved.
【技术实现步骤摘要】
查询词分类样本自动挖掘以及游戏项目推荐的方法和装置
本专利技术涉及互联网
,特别是涉及一种基于游戏项目的查询词分类样本自动挖掘方法和装置,以及一种游戏项目推荐方法和装置。
技术介绍
随着互联网技术的发展,越来越多的用户通过网络可以获取各种游戏项目。游戏项目提供方或者游戏项目平台通常会根据用户的兴趣偏好,相应推荐游戏项目给用户。为了推荐符合用户兴趣偏好的游戏项目,可以分析用户在搜索时使用从查询词,从中识别出其用户可能感兴趣的游戏项目类别,再基于此推荐同类别的游戏项目。目前的游戏项目推荐方法中,通常是由人工收集大量用户搜索时使用的查询词,针对收集到的查询词,人工识别查询词中包含的与某个游戏项目有关的信息,根据这些信息相应地标注查询词所属游戏项目,基于确定了游戏项目类别的查询词,给使用过该查询词进行搜索的用户推荐相应类别的游戏项目。例如,用户使用了查询词“死亡之翼攻略”,通过人工识别的方法,可以确定该查询词是针对“魔兽世界”该游戏项目的,“魔兽世界”属于网络游戏,因此可以将该查询词标注为“网络游戏”,并推荐其他同属于网络游戏的游戏项目给使用了该查询词进行搜索的用户。然而,目前的游戏项目推荐方法中,相对于海量的查询词而言,依赖人工收集、识别和标注查询词的方式所能覆盖的查询词样本极其有限,对于没有被覆盖到的查询词则无法相应地进行游戏项目推荐,从而导致游戏项目推荐的效率较低。而且,依赖人工收集、识别和标注查询词的方式,需要耗费大量的人力物力。最后,人工标注查询词所属游戏项目类别的方式比较主观,导致推荐的游戏项目可能并不符合用户实际感兴趣的游戏项目类别的问题。专利 ...
【技术保护点】
一种基于游戏项目的查询词分类样本自动挖掘方法,包括:通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别;利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游戏项目类别一致的第一扩展查询词;提取所述第一扩展查询词触发搜索的网页信息中的至少一个特征信息并作为第二扩展查询词。
【技术特征摘要】
1.一种基于游戏项目的查询词分类样本自动挖掘方法,包括:通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别;利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游戏项目类别一致的第一扩展查询词;提取所述第一扩展查询词触发搜索的网页信息中的至少一个特征信息并作为第二扩展查询词。2.如权利要求1所述的方法,所述通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别的步骤之前还包括:在所述历史搜索数据中查找搜索频率在预设频率范围内的查询词,并将查找的查询词作为所述基准查询词。3.如权利要求1所述的方法,所述通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别的步骤包括:通过游戏项目分类网站的网页信息获取多个游戏项目的标识信息及对应的游戏项目类别;识别所述基准查询词所包含的标识信息,并将识别出的标识信息对应的游戏项目类别作为所述基准查询词的游戏项目类别。4.如权利要求1所述的方法,所述利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游戏项目类别一致的第一扩展查询词的步骤包括:查找搜索结果中被用户点击的网页信息与利用所述基准查询词触发的搜索结果中被用户点击的网页信息一致的预置查询词,并将查找的预置查询词作为所述第一扩展查询词。5.如权利要求1所述的方法,所述利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游戏项目类别一致的第一扩展查询词的步骤包括:判断利用所述预置查询词触发的搜索结果与利用所述基准查询词触发的搜索结果在预设排序范围内的网页信息是否一致,若是则将所述预置查询词作为所述第一扩展查询词。6.如权利要求1所述的方法,所述特征信息包括网页标题和/或网页简介,所述提取所述第一扩展查询词触发搜索的网页信息中的至少一个特征信息并作为第二扩展查询词的步骤包括:利用所述第一扩展查询词触发搜索的网页信息中的特征信息作为所述第二扩展查询词;和/或,利用从历史搜索数据中查找到的网页信息中的特...
【专利技术属性】
技术研发人员:洪春晓,吕鹏,徐立鑫,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。