【技术实现步骤摘要】
相似应用的识别方法、装置和应用搜索推荐方法、服务器
本专利技术涉及数据挖掘领域,具体涉及相似应用的识别方法、装置和应用搜索推荐方法、服务器。
技术介绍
目前许多应用商店提供了将应用进行分类的功能,用户可以浏览各个类别下的应用,从中选择喜欢的应用进行下载。例如,苹果商店AppStore提供了游戏、教育、儿童、购物等多个分类。然而,实现这一功能的前提是能够将应用划分至相应的分类下,也就是能够识别出相似应用,现有技术中,实现识别相似应用的方法是使用应用功能标签,将功能标签相同的应用认为是相似应用。这种方法主要依赖人工标注和开发者提供的应用功能标签,人工标注的代价很大,覆盖率也低,只能标注一部分热门的应用;开发者提供的应用介绍,作弊信息较多以欺骗搜索引擎获取高的搜索排名,可靠性较差。因此传统挖掘相似应用的方法有很大局限性,准确率仅在70%左右。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的相似应用的识别方法、装置和应用搜索推荐方法、服务器。依据本专利技术的一个方面,提供了一种相似应用的识别方法,包括:从应用搜索引擎的查询会话 ...
【技术保护点】
一种相似应用的识别方法,其中,该方法包括:从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词和下载的应用;根据各查询会话中的搜索词和下载的应用,挖掘出各应用的语义表示信息;根据各应用的语义表示信息识别出该应用的一个或多个相似应用,将相似应用加入该应用的相似应用集合。
【技术特征摘要】
1.一种相似应用的识别方法,其中,该方法包括:从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词和下载的应用;根据各查询会话中的搜索词和下载的应用,挖掘出各应用的语义表示信息;根据各应用的语义表示信息识别出该应用的一个或多个相似应用,将相似应用加入该应用的相似应用集合。2.如权利要求1所述的方法,其中,所述从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词和下载的应用包括:从应用搜索引擎的查询会话日志中,获取符合预设时间长度的查询会话中的搜索词和下载的应用。3.如权利要求1或2所述的方法,所述根据各查询会话中的搜索词和下载的应用,挖掘出各应用的语义表示信息包括:对于各查询会话,将该查询会话中的搜索词按照顺序排成一个序列;如果该序列中的一个搜索词对应于应用下载操作,将所下载的应用的名称插入到该序列中的相应搜索词的后面相邻位置,从而形成该查询会话对应的训练语料;将所有训练语料汇总为训练语料集合;利用深度学习工具包word2vec对所述训练语料集合进行训练,将每条训练语料看做一个单词,为各应用生成N维向量形式的语义表示信息,其中,N为自然数。4.如权利要求1-3中任一项所述的方法,其中,所述利用深度学习工具包word2vec对所述训练语料集合进行训练使用下述参数:-cbow1-size300-window8-negative25-hs0-sample1e-4-threads24-binary0-iter15。5.一种应用搜索推荐方法,其中,该方法包括:接收用户输入的搜索词,根据所述搜索词确定目标应用;从目标应用的相似应用集合中获取目标应用的一个或多个相似应用,将所述目标应用和相似应用推荐给用户,其中,所述目标应用的相似应用集合是通过如权利要求1-4中任一项所述的方法得到的。...
【专利技术属性】
技术研发人员:庞伟,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。