查询词分类样本自动挖掘以及游戏项目推荐的方法和装置制造方法及图纸

技术编号:15391537 阅读:65 留言:0更新日期:2017-05-19 04:48
本发明专利技术实施例提供了一种查询词分类样本自动挖掘和游戏项目推荐方法,包括:通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别;利用查询词与触发搜索的网页信息,获取与基准查询词所属游戏项目类别一致的第一扩展查询词;提取第一扩展查询词触发搜索的网页信息中的特征信息作为第二扩展查询词;根据第一扩展查询词及第二扩展查询词所属游戏项目类别,识别目标查询词所属目标游戏项目类别,在目标游戏项目类别中进行游戏项目推荐。从而可以挖掘到大量的查询词分类样本,使得游戏项目推荐时覆盖更多的查询词,提升游戏项目推荐的效率。

Method and device for automatically mining query words, classifying samples and recommending game items

Including the embodiment of the invention provides a sample automatic query classification mining and game project recommendation method, by crawling web information extraction recognition search benchmark query word belongs to the game project category data from history; using query information and trigger a search page, access and query the game reference item category the first consistent query expansion; extracting the first query expansion trigger feature information of Web information search in second as the extended query; query expansion based on the first and two query expansion is the game project categories, identify the target query the goal of the game project categories, the game project in the goal of the game in the project categories recommended. Thus, a large number of query words and classified samples can be excavated, so that more query words can be covered when the game project is recommended, and the efficiency of the recommendation of the game items can be improved.

【技术实现步骤摘要】
查询词分类样本自动挖掘以及游戏项目推荐的方法和装置
本专利技术涉及互联网
,特别是涉及一种基于游戏项目的查询词分类样本自动挖掘方法和装置,以及一种游戏项目推荐方法和装置。
技术介绍
随着互联网技术的发展,越来越多的用户通过网络可以获取各种游戏项目。游戏项目提供方或者游戏项目平台通常会根据用户的兴趣偏好,相应推荐游戏项目给用户。为了推荐符合用户兴趣偏好的游戏项目,可以分析用户在搜索时使用从查询词,从中识别出其用户可能感兴趣的游戏项目类别,再基于此推荐同类别的游戏项目。目前的游戏项目推荐方法中,通常是由人工收集大量用户搜索时使用的查询词,针对收集到的查询词,人工识别查询词中包含的与某个游戏项目有关的信息,根据这些信息相应地标注查询词所属游戏项目,基于确定了游戏项目类别的查询词,给使用过该查询词进行搜索的用户推荐相应类别的游戏项目。例如,用户使用了查询词“死亡之翼攻略”,通过人工识别的方法,可以确定该查询词是针对“魔兽世界”该游戏项目的,“魔兽世界”属于网络游戏,因此可以将该查询词标注为“网络游戏”,并推荐其他同属于网络游戏的游戏项目给使用了该查询词进行搜索的用户。然而,目前的游戏项目推荐方法中,相对于海量的查询词而言,依赖人工收集、识别和标注查询词的方式所能覆盖的查询词样本极其有限,对于没有被覆盖到的查询词则无法相应地进行游戏项目推荐,从而导致游戏项目推荐的效率较低。而且,依赖人工收集、识别和标注查询词的方式,需要耗费大量的人力物力。最后,人工标注查询词所属游戏项目类别的方式比较主观,导致推荐的游戏项目可能并不符合用户实际感兴趣的游戏项目类别的问题。专利
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于游戏项目的查询词分类样本自动挖掘方法和相应的一种基于游戏项目的查询词分类样本自动挖掘装置,以及一种游戏项目推荐方法和相应的一种游戏项目推荐装置。依据本专利技术的一个方面,提供了一种基于游戏项目的查询词分类样本自动挖掘方法,包括:通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别;利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游戏项目类别一致的第一扩展查询词;提取所述第一扩展查询词触发搜索的网页信息中的至少一个特征信息并作为第二扩展查询词。可选地,所述通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别的步骤之前还包括:在所述历史搜索数据中查找搜索频率在预设频率范围内的查询词,并将查找的查询词作为所述基准查询词。可选地,所述通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别的步骤包括:通过游戏项目分类网站的网页信息获取多个游戏项目的标识信息及对应的游戏项目类别;识别所述基准查询词所包含的标识信息,并将识别出的标识信息对应的游戏项目类别作为所述基准查询词的游戏项目类别。可选地,所述利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游戏项目类别一致的第一扩展查询词的步骤包括:查找搜索结果中被用户点击的网页信息与利用所述基准查询词触发的搜索结果中被用户点击的网页信息一致的预置查询词,并将查找的预置查询词作为所述第一扩展查询词。可选地,所述利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游戏项目类别一致的第一扩展查询词的步骤包括:判断利用所述预置查询词触发的搜索结果与利用所述基准查询词触发的搜索结果在预设排序范围内的网页信息是否一致,若是则将所述预置查询词作为所述第一扩展查询词。可选地,所述特征信息包括网页标题和/或网页简介,所述提取所述第一扩展查询词触发搜索的网页信息中的至少一个特征信息并作为第二扩展查询词的步骤包括:利用所述第一扩展查询词触发搜索的网页信息中的特征信息作为所述第二扩展查询词;和/或,利用从历史搜索数据中查找到的网页信息中的特征信息作为所述第二扩展查询词。根据本专利技术的另一方面,提供了一种游戏项目推荐方法,包括:通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别;利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游戏项目类别一致的第一扩展查询词;提取所述第一扩展查询词触发搜索的网页信息中的至少一个特征信息并作为第二扩展查询词;根据所述第一扩展查询词以及所述第二扩展查询词分别所属游戏项目类别,识别目标查询词所属目标游戏项目类别,并在所述目标游戏项目类别中进行游戏项目推荐。可选地,所述根据所述第一扩展查询词以及所述第二扩展查询词分别所属游戏项目类别,识别目标查询词所属目标游戏项目类别包括:根据所述第一扩展查询词以及所述第二扩展查询词分别所属游戏项目类别训练基于查询词预测游戏项目类别的预测模型;将所述目标查询词输入所述预测模型,得到所述目标查询词所属目标游戏项目类别。可选地,所述识别目标查询词所属目标游戏项目类别的步骤包括:当识别出所述目标查询词包含与所述第二扩展查询词相似的查询词时,以所述第二扩展查询词校正所述目标查询词;利用校正后的目标查询词识别所述目标查询词所属目标游戏项目类别。根据本专利技术的另一方面,提供了一种基于游戏项目的查询词分类样本自动挖掘装置,包括:游戏项目类别识别模块,用于通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别;第一扩展查询词获取模块,用于利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游戏项目类别一致的第一扩展查询词;第二扩展查询词提取模块,用于提取所述第一扩展查询词触发搜索的网页信息中的至少一个特征信息并作为第二扩展查询词。可选地,所述装置还包括:历史搜索数据查找模块,用于在所述历史搜索数据中查找搜索频率在预设频率范围内的查询词,并将查找的查询词作为所述基准查询词。可选地,所述游戏项目类别识别模块包括:游戏项目分类网站获取子模块,用于通过游戏项目分类网站的网页信息获取多个游戏项目的标识信息及对应的游戏项目类别;标识信息识别子模块,用于识别所述基准查询词所包含的标识信息,并将识别出的标识信息对应的游戏项目类别作为所述基准查询词的游戏项目类别。可选地,所述第一扩展查询词获取模块包括:搜索结果查找子模块,用于查找搜索结果中被用户点击的网页信息与利用所述基准查询词触发的搜索结果中被用户点击的网页信息一致的预置查询词,并将查找的预置查询词作为所述第一扩展查询词。可选地,所述第一扩展查询词获取模块包括:搜索结果判断子模块,用于判断利用所述预置查询词触发的搜索结果与利用所述基准查询词触发的搜索结果在预设排序范围内的网页信息是否一致,若是则将所述预置查询词作为所述第一扩展查询词。可选地,所述特征信息包括网页标题和/或网页简介,所述第二扩展查询词提取模块包括:第二扩展查询词提取子模块,用于利用所述第一扩展查询词触发搜索的网页信息中的特征信息作为所述第二扩展查询词;和/或,利用从历史搜索数据中查找到的网页信息中的特征信息作为所述第二扩展查询词。根据本专利技术的另一方面,提供了一种游戏项目推荐装置,包括:游戏项目类别识别模块,用于通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别;第一扩展查询词获取模块,用于利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游本文档来自技高网
...
查询词分类样本自动挖掘以及游戏项目推荐的方法和装置

【技术保护点】
一种基于游戏项目的查询词分类样本自动挖掘方法,包括:通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别;利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游戏项目类别一致的第一扩展查询词;提取所述第一扩展查询词触发搜索的网页信息中的至少一个特征信息并作为第二扩展查询词。

【技术特征摘要】
1.一种基于游戏项目的查询词分类样本自动挖掘方法,包括:通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别;利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游戏项目类别一致的第一扩展查询词;提取所述第一扩展查询词触发搜索的网页信息中的至少一个特征信息并作为第二扩展查询词。2.如权利要求1所述的方法,所述通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别的步骤之前还包括:在所述历史搜索数据中查找搜索频率在预设频率范围内的查询词,并将查找的查询词作为所述基准查询词。3.如权利要求1所述的方法,所述通过爬取网页信息识别从历史搜索数据中提取的基准查询词所属游戏项目类别的步骤包括:通过游戏项目分类网站的网页信息获取多个游戏项目的标识信息及对应的游戏项目类别;识别所述基准查询词所包含的标识信息,并将识别出的标识信息对应的游戏项目类别作为所述基准查询词的游戏项目类别。4.如权利要求1所述的方法,所述利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游戏项目类别一致的第一扩展查询词的步骤包括:查找搜索结果中被用户点击的网页信息与利用所述基准查询词触发的搜索结果中被用户点击的网页信息一致的预置查询词,并将查找的预置查询词作为所述第一扩展查询词。5.如权利要求1所述的方法,所述利用查询词与触发搜索的网页信息,获取至少一个与基准查询词所属游戏项目类别一致的第一扩展查询词的步骤包括:判断利用所述预置查询词触发的搜索结果与利用所述基准查询词触发的搜索结果在预设排序范围内的网页信息是否一致,若是则将所述预置查询词作为所述第一扩展查询词。6.如权利要求1所述的方法,所述特征信息包括网页标题和/或网页简介,所述提取所述第一扩展查询词触发搜索的网页信息中的至少一个特征信息并作为第二扩展查询词的步骤包括:利用所述第一扩展查询词触发搜索的网页信息中的特征信息作为所述第二扩展查询词;和/或,利用从历史搜索数据中查找到的网页信息中的特...

【专利技术属性】
技术研发人员:洪春晓吕鹏徐立鑫
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1