一种基于内容的计算移动应用相似性的方法技术

技术编号：13502675 阅读：57 留言：0更新日期：2016-08-10 00:24

本发明专利技术涉及一种基于内容的计算移动应用相似性的方法。包括如下步骤：在获取大量移动应用信息后，进行移动应用信息的提取，包括应用名称、应用类型、应用描述和应用大小等；将应用描述信息进行分词；将分词完毕后的内容分为两份，一份整合后作为word2vec的模型的训练语料，另一份存成文档集的形式并进行TF-IDF的计算，然后将结果存入HBase数据仓库；进行app相似性查询及计算。实施本发明专利技术的一种基于内容的计算移动应用相似性的方法，具有以下有益效果：可以快速的响应app的相似性查询，基于内容的app特征及描述信息能够很好地代指app，准确率高，可提高app的搜索及推荐的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据信息检索及推荐系统领域，特别涉及一种通过信息检索而完成的基于特征内容的计算移动应用相似性的方法。
技术介绍
随着移动互联网的日益兴盛以及“互联网+”的提出，移动互联网的便捷性与高效性越来越为人们所熟知。O2O(OnlineToOffline，线上到线下)概念的提出及各种线上线下的应用，不仅快速促进了商品的买卖，也极大的丰富了人们的生活。在大众的“互联网+”的生活中，海量的移动应用(MobileApplications，简称app)占据着举足重要的地位。国内各大移动应用市场为大众的app需求提供了强有力的支撑。在移动应用市场中，用户往往会搜索自己需要的app。但在这样海量的条件下，对作为非专业人员的大众用户来说，会出现很多搜索的结果并不是自己需要的情况。因此，急需一种方法，可以在用户查询相关app的同时，能够为用户提供一些相似的app，用以满足用户可能的粗略查询等。同时在推荐系统中，可以主动为用户推荐一些与用户终端上安装的app类似的移动应用，根据用户的喜好来推荐移动应用可以提高推荐的准确率。现有的对于应用的相似性计算，有基于底层代码和接口的相似性计算。这些基于代码层的相似性计算，无法直接反映普通用户的语义需求，且开发完成的移动应用app均是完整的.apk文件，无法获取其底层的代码细节，故已经不适应用户的当前需求。对于应用的相似性计算，同时还有基于app内容的相似性计算方法。大部<...

【技术保护点】
一种基于内容的计算移动应用相似性的方法，其特征在于，包括如下步骤：S10.爬取大量app数据并进行数据的特征整理，将整理好的特征保存到数据库中，建立一个特征库以供查询；S20.根据待查询app的特征信息，在所述特征库中进行查询及计算，找出待查询app的相似app；所述待查询app的特征信息由用户提供或从所述特征库中查询得到。

【技术特征摘要】
2015.09.28 CN 20151062687421.一种基于内容的计算移动应用相似性的方法，其特征在于，包括如下步
骤：
S10.爬取大量app数据并进行数据的特征整理，将整理好的特征保存到数
据库中，建立一个特征库以供查询；
S20.根据待查询app的特征信息，在所述特征库中进行查询及计算，找出
待查询app的相似app；所述待查询app的特征信息由用户提供或从所述特征库
中查询得到。
2.根据权利要求1所述的基于内容的计算移动应用相似性的方法，其特征在
于，步骤S10包括以下步骤：
S101.将大量app数据爬取下来，结构化整理后存入到数据库中；
S102.将所述数据库中每个app的描述信息单独整合成文件，然后分别分
词；
S103.分词完成后得到的数据，一份拷贝作为完整语料库合并，然后使用
word2vec进行语料库的训练；另一份拷贝则按照原有的文件结构，进行各文档
间TF-IDF的计算，得出每个文档中所有关键词的权重；
S104.将计算得出的关键词及其权重写入HBase中，其中行对应每个app
包名，列对应所有关键词，值为关键词权重，建立特征库以供...

【专利技术属性】
技术研发人员：吴明晖，刘泽民，金苍宏，应晶，
申请(专利权)人：杭州圆橙科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人