一种基于内容的计算移动应用相似性的方法技术

技术编号:13502675 阅读:57 留言:0更新日期:2016-08-10 00:24
本发明专利技术涉及一种基于内容的计算移动应用相似性的方法。包括如下步骤:在获取大量移动应用信息后,进行移动应用信息的提取,包括应用名称、应用类型、应用描述和应用大小等;将应用描述信息进行分词;将分词完毕后的内容分为两份,一份整合后作为word2vec的模型的训练语料,另一份存成文档集的形式并进行TF-IDF的计算,然后将结果存入HBase数据仓库;进行app相似性查询及计算。实施本发明专利技术的一种基于内容的计算移动应用相似性的方法,具有以下有益效果:可以快速的响应app的相似性查询,基于内容的app特征及描述信息能够很好地代指app,准确率高,可提高app的搜索及推荐的准确率。

【技术实现步骤摘要】

本专利技术涉及数据信息检索及推荐系统领域,特别涉及一种通过信息检索而完成的基于特征内容的计算移动应用相似性的方法。
技术介绍
随着移动互联网的日益兴盛以及“互联网+”的提出,移动互联网的便捷性与高效性越来越为人们所熟知。O2O(OnlineToOffline,线上到线下)概念的提出及各种线上线下的应用,不仅快速促进了商品的买卖,也极大的丰富了人们的生活。在大众的“互联网+”的生活中,海量的移动应用(MobileApplications,简称app)占据着举足重要的地位。国内各大移动应用市场为大众的app需求提供了强有力的支撑。在移动应用市场中,用户往往会搜索自己需要的app。但在这样海量的条件下,对作为非专业人员的大众用户来说,会出现很多搜索的结果并不是自己需要的情况。因此,急需一种方法,可以在用户查询相关app的同时,能够为用户提供一些相似的app,用以满足用户可能的粗略查询等。同时在推荐系统中,可以主动为用户推荐一些与用户终端上安装的app类似的移动应用,根据用户的喜好来推荐移动应用可以提高推荐的准确率。现有的对于应用的相似性计算,有基于底层代码和接口的相似性计算。这些基于代码层的相似性计算,无法直接反映普通用户的语义需求,且开发完成的移动应用app均是完整的.apk文件,无法获取其底层的代码细节,故已经不适应用户的当前需求。对于应用的相似性计算,同时还有基于app内容的相似性计算方法。大部<br>分的基于内容的相似性计算方法是基于app的描述信息,因为描述信息是能够描述一个app本身比较权威的资料。但是,现有的描述信息的计算方法一般是基于词袋模型来做的。词袋模型没有考虑词与词之间的顺序,这样就忽略了很多词的上下文关系,在计算向量间的相似性时,比如两个近义词,由于不是同一个词,很有可能使得相似性变小而出现很大的误差。同时,计算相似性应用时,现有大多数方法并未将app的其他诸如名称、类别及大小等信息考虑在内。而有的方法又将诸如app的评论信息也加入其中。据我们观察发现,app的评论信息的质量非常差,一般无法反应出app的真实内容。因此,针对目前现有的技术中存在的上述缺陷,有必要进行研究,提供一种方案,解决现有技术中存在的缺陷,使得相似性计算方法能够更深层次的依赖于app特征信息。
技术实现思路
本专利技术的目的在于提供一种移动应用app的相似性计算方法,用于更好的从海量app库中找到某个app的最相似app,以便提高app的搜索的准确率和推荐的成功率。为实现上述目的,本专利技术的技术方案为:一种基于内容的计算移动应用相似性的方法,包括如下步骤:S10.爬取大量app数据并进行数据的特征整理,将整理好的特征保存到数据库中,建立一个特征库以供查询;S20.根据待查询app的特征信息,在所述特征库中进行查询及计算,找出待查询app的相似app;所述待查询app的特征信息由用户提供或从所述特征库中查询得到。进一步的,步骤S10包括以下步骤:S101.将大量app数据爬取下来,结构化整理后存入到数据库中;S102.将所述数据库中每个app的描述信息单独整合成文件,然后分别分词;S103.分词完成后得到的数据,一份拷贝作为完整语料库合并,然后使用word2vec进行语料库的训练;另一份拷贝则按照原有的文件结构,进行各文档间TF-IDF的计算,得出每个文档中所有关键词的权重;S104.将计算得出的关键词及其权重写入HBase中,其中行对应每个app包名,列对应所有关键词,值为关键词权重,建立特征库以供查询;S105.计算出app的名称、类型、描述和应用大小四个方面特征的相似性并以各自的权重进行整合,作为算法最后的相似性值。进一步的,步骤S20包括以下步骤:S201.获取要查询的app的包名作为其唯一名称;S202.在HBase中的特征库库中,按照app的包名进行横向查询,找出此app所有的关键词;S203.对于每个关键词,分别使用word2vec找出这个关键词前K个近义词进行扩展;S204.将扩展后的关键词进行权重的整合,并挑选出其前N个关键词作为此app的绝对关键词;S205.根据绝对关键词,按列查询HBase中的特征库,将所述绝对关键词对应的所有的app查询出来,并将app的权重进行整合;S206.分别计算这些app与待查询app之间的名称、类别及大小的相似值,然后将这些app与待查询app之间的描述信息、名称、类别及大小的相似值按照各自的权重进行整合,作为这些app与待查询app之间的相似性值;S207.将整合后的app按照权重降序排列,建立app的相似性排序,权重越大的即为越相似的app。本专利技术的有益效果是:提供了一种移动应用app的相似性计算方法,用于更好的从海量app库中找到某个app的最相似app,以便提高app的搜索的准确率和推荐的成功率。具体表现在如下方面:1)使用app的描述信息,同时使用word2vec进行近义词的计算,不仅能够很好地反映app的具体语义内容,同时能够结合描述信息中的上下文关系,更好的挖掘出其中的近义词特征;2)结合了app的名称、类型、大小及描述信息,充分使用app的特征,同时将app的评论等的内容较差的信息排除在外,计算结果更准确全面;3)使用HBase作为数据仓库进行数据的查询,对于海量的app数据可以更快速的进行处理。附图说明图1为本专利技术的基于内容的计算移动应用相似性的方法的实施例的流程示意图。具体实施方式为了进一步理解本专利技术,下面结合实施例对本专利技术优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本专利技术的特征和优点,而不是对本专利技术权利要求的限制。本专利技术提供了一种基于内容的计算移动应用相似性的方法,依赖于app的名称、描述信息、类型及大小等特征,找到与此app最为相似的app,具体包括以下步骤:S1.爬取大量app数据并进行数据的特征整理,将整理好的特征保存到数据库中,建立一个特征库以供查询;S2.根据待查询app的特征信息,在所述特征库中进行查询及计算,找出待查询app的相似app;所述待查询app的特征信息由用户提供或从所述特征库中查询得到。下面结合具体实施方式,对上述内容作进一步详细说明。步骤S10,从网上爬取大量app的相关信息,其中包括app的名称、类别、大小及描述信息,并将这些本文档来自技高网
...

【技术保护点】
一种基于内容的计算移动应用相似性的方法,其特征在于,包括如下步骤:S10.爬取大量app数据并进行数据的特征整理,将整理好的特征保存到数据库中,建立一个特征库以供查询;S20.根据待查询app的特征信息,在所述特征库中进行查询及计算,找出待查询app的相似app;所述待查询app的特征信息由用户提供或从所述特征库中查询得到。

【技术特征摘要】
2015.09.28 CN 20151062687421.一种基于内容的计算移动应用相似性的方法,其特征在于,包括如下步
骤:
S10.爬取大量app数据并进行数据的特征整理,将整理好的特征保存到数
据库中,建立一个特征库以供查询;
S20.根据待查询app的特征信息,在所述特征库中进行查询及计算,找出
待查询app的相似app;所述待查询app的特征信息由用户提供或从所述特征库
中查询得到。
2.根据权利要求1所述的基于内容的计算移动应用相似性的方法,其特征在
于,步骤S10包括以下步骤:
S101.将大量app数据爬取下来,结构化整理后存入到数据库中;
S102.将所述数据库中每个app的描述信息单独整合成文件,然后分别分
词;
S103.分词完成后得到的数据,一份拷贝作为完整语料库合并,然后使用
word2vec进行语料库的训练;另一份拷贝则按照原有的文件结构,进行各文档
间TF-IDF的计算,得出每个文档中所有关键词的权重;
S104.将计算得出的关键词及其权重写入HBase中,其中行对应每个app
包名,列对应所有关键词,值为关键词权重,建立特征库以供...

【专利技术属性】
技术研发人员:吴明晖刘泽民金苍宏应晶
申请(专利权)人:杭州圆橙科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1