本发明专利技术公开了相似应用的识别方法、装置和应用搜索推荐方法、服务器,其中相似应用的识别方法包括:从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词和下载的应用;根据各查询会话中的搜索词和下载的应用,挖掘出各应用的语义表示信息;根据各应用的语义表示信息识别出该应用的一个或多个相似应用,将相似应用加入该应用的相似应用集合。该技术方案采用大数据样本机器学习的方式,从用户的使用情况中挖掘出应用的语义表示信息,相较于人工标注的方式,减少作弊带来的负面影响,显著提高了相似应用识别的准确度,同时减少了人工成本并大大提升了效率。
【技术实现步骤摘要】
相似应用的识别方法、装置和应用搜索推荐方法、服务器
本专利技术涉及数据挖掘领域,具体涉及相似应用的识别方法、装置和应用搜索推荐方法、服务器。
技术介绍
目前许多应用商店提供了将应用进行分类的功能,用户可以浏览各个类别下的应用,从中选择喜欢的应用进行下载。例如,苹果商店AppStore提供了游戏、教育、儿童、购物等多个分类。然而,实现这一功能的前提是能够将应用划分至相应的分类下,也就是能够识别出相似应用,现有技术中,实现识别相似应用的方法是使用应用功能标签,将功能标签相同的应用认为是相似应用。这种方法主要依赖人工标注和开发者提供的应用功能标签,人工标注的代价很大,覆盖率也低,只能标注一部分热门的应用;开发者提供的应用介绍,作弊信息较多以欺骗搜索引擎获取高的搜索排名,可靠性较差。因此传统挖掘相似应用的方法有很大局限性,准确率仅在70%左右。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的相似应用的识别方法、装置和应用搜索推荐方法、服务器。依据本专利技术的一个方面,提供了一种相似应用的识别方法,包括:从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词和下载的应用;根据各查询会话中的搜索词和下载的应用,挖掘出各应用的语义表示信息;根据各应用的语义表示信息识别出该应用的一个或多个相似应用,将相似应用加入该应用的相似应用集合。可选地,所述从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词和下载的应用包括:从应用搜索引擎的查询会话日志中,获取符合预设时间长度的查询会话中的搜索词和下载的应用。可选地,所述根据各查询会话中的搜索词和下载的应用,挖掘出各应用的语义表示信息包括:对于各查询会话,将该查询会话中的搜索词按照顺序排成一个序列;如果该序列中的一个搜索词对应于应用下载操作,将所下载的应用的名称插入到该序列中的相应搜索词的后面相邻位置,从而形成该查询会话对应的训练语料;将所有训练语料汇总为训练语料集合;利用深度学习工具包word2vec对所述训练语料集合进行训练,将每条训练语料看做一个单词,为各应用生成N维向量形式的语义表示信息,其中,N为自然数。可选地,所述利用深度学习工具包word2vec对所述训练语料集合进行训练使用下述参数:-cbow1-size300-window8-negative25-hs0-sample1e-4-threads24-binary0-iter15。可选地,所述根据各应用的语义表示信息识别出该应用的一个或多个相似应用包括:对各应用,计算该应用的N维向量与其他应用的N维向量的余弦相似度;所述将相似应用加入该应用的相似应用集合包括:选取与该应用的余弦相似度最高的C个应用作为该应用的相似应用,其中,C为自然数。可选地,计算其与其他应用的余弦相似度包括:将所有应用的N维向量形式的语义表示信息存储到k-d树中;在k-d树中计算与目标应用相距在预设范围内的一个或多个应用与该目标应用的余弦相似度。可选地,所述选取与该应用的余弦相似度最高的C个应用作为该应用的相似应用包括:从应用搜索引擎的查询会话日志中统计该应用的下载次数S;根据预设的折线函数{S1:C1;……Si:Ci;……Sj:Cj;……}和下述公式确定C的取值:其中,Si≤S≤Sj,Ci≤C≤Cj。可选地,该方法还包括:对各应用,根据该应用的标签属性,从该应用的相似应用集合中筛除标签差异在预设范围外的应用。可选地,所述从该应用的相似应用集合中筛除标签差异在预设范围外的应用包括:计算该应用与目标相似应用的标签语义相似度;将标签语义相似度低于预设阈值的目标相似应用从该应用的相似应用集合中删除。依据本专利技术的另一方面,提供了一种应用搜索推荐方法,包括:接收用户输入的搜索词,根据所述搜索词确定目标应用;从目标应用的相似应用集合中获取目标应用的一个或多个相似应用,将所述目标应用和相似应用推荐给用户,其中,所述目标应用的相似应用集合是通过如上述任一项所述的方法得到的。依据本专利技术的又一方面,提供了一种相似应用的识别装置,包括:获取单元,适于从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词和下载的应用;挖掘单元,适于根据各查询会话中的搜索词和下载的应用,挖掘出各应用的语义表示信息;识别单元,适于根据各应用的语义表示信息识别出该应用的一个或多个相似应用,将相似应用加入该应用的相似应用集合。可选地,所述获取单元,适于从应用搜索引擎的查询会话日志中,获取符合预设时间长度的查询会话中的搜索词和下载的应用。可选地,所述挖掘单元,适于对于各查询会话,将该查询会话中的搜索词按照顺序排成一个序列;如果该序列中的一个搜索词对应于应用下载操作,将所下载的应用的名称插入到该序列中的相应搜索词的后面相邻位置,从而形成该查询会话对应的训练语料;将所有训练语料汇总为训练语料集合;利用深度学习工具包word2vec对所述训练语料集合进行训练,将每条训练语料看做一个单词,为各应用生成N维向量形式的语义表示信息,其中,N为自然数。可选地,所述挖掘单元,适于在利用深度学习工具包word2vec对所述训练语料集合进行训练时使用下述参数:-cbow1-size300-window8-negative25-hs0-sample1e-4-threads24-binary0-iter15。可选地,所述识别单元,适于对各应用,计算该应用的N维向量与其他应用的N维向量的余弦相似度;选取与该应用的余弦相似度最高的C个应用作为该应用的相似应用,其中,C为自然数。可选地,所述识别单元,适于将所有应用的N维向量形式的语义表示信息存储到k-d树中;在k-d树中计算与目标应用相距在预设范围内的一个或多个应用与该目标应用的余弦相似度。可选地,所述识别单元,适于从应用搜索引擎的查询会话日志中统计该应用的下载次数S;根据预设的折线函数{S1:C1;……Si:Ci;……Sj:Cj;……}和下述公式确定C的取值:其中,Si≤S≤Sj,Ci≤C≤Cj。可选地,该装置还包括:筛除单元,适于对各应用,根据该应用的标签属性,从该应用的相似应用集合中筛除标签差异在预设范围外的应用。可选地,所述筛除单元,适于计算该应用与目标相似应用的标签语义相似度;将标签语义相似度低于预设阈值的目标相似应用从该应用的相似应用集合中删除。依据本专利技术的再一方面,提供了一种应用搜索推荐服务器,包括:搜索词接收单元,适于接收用户输入的搜索词,根据所述搜索词确定目标应用;推荐单元,适于从目标应用的相似应用集合中获取目标应用的一个或多个相似应用,将所述目标应用和相似应用推荐给用户,其中,所述目标应用的相似应用集合是通过如上述任一项所述的相似应用的识别装置得到的。由上述可知,本专利技术的技术方案,利用用户在使用应用搜索引擎过程中产生的查询会话日志,获取各查询会话中的搜索词和下载的应用,进一步挖掘出各应用的语义表示信息,基于此识别出应用的相似应用,并形成与该应用对应的相似应用集合,可以用于进行应用搜索推荐等。该技术方案采用大数据样本机器学习的方式,从用户的使用情况中挖掘出应用的语义表示信息,相较于人工标注的方式,减少作弊带来的负面影响,显著提高了相似应用识别的准确度,同时减少了人工成本并大大提升了效率。上述说明仅是本专利技术技本文档来自技高网...

【技术保护点】
一种相似应用的识别方法,其中,该方法包括:从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词和下载的应用;根据各查询会话中的搜索词和下载的应用,挖掘出各应用的语义表示信息;根据各应用的语义表示信息识别出该应用的一个或多个相似应用,将相似应用加入该应用的相似应用集合。
【技术特征摘要】
1.一种相似应用的识别方法,其中,该方法包括:从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词和下载的应用;根据各查询会话中的搜索词和下载的应用,挖掘出各应用的语义表示信息;根据各应用的语义表示信息识别出该应用的一个或多个相似应用,将相似应用加入该应用的相似应用集合。2.如权利要求1所述的方法,其中,所述从应用搜索引擎的查询会话日志中获取各查询会话中的搜索词和下载的应用包括:从应用搜索引擎的查询会话日志中,获取符合预设时间长度的查询会话中的搜索词和下载的应用。3.如权利要求1或2所述的方法,所述根据各查询会话中的搜索词和下载的应用,挖掘出各应用的语义表示信息包括:对于各查询会话,将该查询会话中的搜索词按照顺序排成一个序列;如果该序列中的一个搜索词对应于应用下载操作,将所下载的应用的名称插入到该序列中的相应搜索词的后面相邻位置,从而形成该查询会话对应的训练语料;将所有训练语料汇总为训练语料集合;利用深度学习工具包word2vec对所述训练语料集合进行训练,将每条训练语料看做一个单词,为各应用生成N维向量形式的语义表示信息,其中,N为自然数。4.如权利要求1-3中任一项所述的方法,其中,所述利用深度学习工具包word2vec对所述训练语料集合进行训练使用下述参数:-cbow1-size300-window8-negative25-hs0-sample1e-4-threads24-binary0-iter15。5.一种应用搜索推荐方法,其中,该方法包括:接收用户输入的搜索词,根据所述搜索词确定目标应用;从目标应用的相似应用集合中获取目标应用的一个或多个相似应用,将所述目标应用和相似应用推荐给用户,其中,所述目标应用的相似应用集合是通过如权利要求1-4中任一项所述的方法得到的。...
【专利技术属性】
技术研发人员:庞伟,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。