一种基于聚类的应用市场刷榜共谋组检测方法技术

技术编号:21433416 阅读:33 留言:0更新日期:2019-06-22 12:17
本发明专利技术公开了一种基于聚类的应用市场刷榜共谋组检测方法,具体实现步骤为:爬取数据集;初始化核心点集合;确定评论者嫌疑分数阈值;从任一核心点出发找出密度可达的样本生成聚类簇,直到所有核心点均被访问为止;输出簇划分结果。本发明专利技术公开的基于聚类的应用市场刷榜共谋组检测方法,该算法充分体现共谋组组内成员相似的特点,获得了更好的聚类效果,且解决了传统聚类算法在应用市场中参数设置困难的问题。

【技术实现步骤摘要】
一种基于聚类的应用市场刷榜共谋组检测方法
本专利技术涉及一种刷榜共谋组检测方法,具体的来说,即一种基于聚类的应用市场刷榜共谋组检测方法。
技术介绍
随着智能手机的快速发展,手机应用的数量以惊人的速度增长,手机应用市场为用户下载移动应用提供一种方便且有效的方式。若一个应用在应用市场中发布的排名越高,意味着该应用具有更高的曝光率,则开发者更有可能获得巨大的利润。于是在移动应用市场,衍生出了一种新型的营销手段——早在电子商务的领域,随着淘宝天猫的火爆,店铺刷单就成为商家作假造势的一种营销手段——应用刷榜。攻击者使用刷榜的手段去推广他们在应用市场中的移动应用以谋求更大的利润,刷榜者同淘宝刷单员一样,多以团体或者小组的形式工作,故又称为刷榜共谋组,由刷榜公司统一管理。组内成员可以模仿正常用户的行为,躲避应用市场中的检测算法,给刷榜共谋组和刷榜者的检测带来挑战。因此,如何快速有效的检测应用市场中的刷榜共谋组是一件亟待解决的事情,对于维护应用市场的生态平衡,加速应用软件开发者在圈内的竞争和创新具有重要意义。目前,电子商务领域存在有检测垃圾评论共谋组的方式,大多采用有监督的机器学习方法,但是其特征之本文档来自技高网...

【技术保护点】
1.一种基于聚类的应用市场刷榜共谋组检测方法,其特征在于,该方法包括以下步骤:步骤1:从应用市场爬取数据集,通过限制评论者的评论数量来过滤,以得到最后实验需要的评论者集合;即选取评论数量超过某一阈值的这些评论者作为数据集;步骤2:首先任选数据集中的一个核心点作为初始集合;步骤3:根据当前数据点的初始参数,即评论者嫌疑分数作为阈值η和评论者间相似度作为阈值∈找出该数据集中的所有核心点;步骤4:以任一核心点为出发点,找出由其密度可达的样本生成聚类簇,直到所有核心点均被访问过为止;步骤5:输出簇划分结果,其中簇划分结果包含聚类簇数和簇内每一个数据的详细信息。

【技术特征摘要】
1.一种基于聚类的应用市场刷榜共谋组检测方法,其特征在于,该方法包括以下步骤:步骤1:从应用市场爬取数据集,通过限制评论者的评论数量来过滤,以得到最后实验需要的评论者集合;即选取评论数量超过某一阈值的这些评论者作为数据集;步骤2:首先任选数据集中的一个核心点作为初始集合;步骤3:根据当前数据点的初始参数,即评论者嫌疑分数作为阈值η和评论者间相似度作为阈值∈找出该数据集中的所有核心点;步骤4:以任一核心点为出发点,找出由其密度可达的样本生成聚类簇,直到所有核心点均被访问过为止;步骤5:输出簇划分结果,其中簇划分结果包含聚类簇数和簇内每一个数据的详细信息。2.根据权利要求1所述的基于聚类的应用市场刷榜共谋组检测方法,其特征在于,所述步骤1中数据集的爬取,包括但不限于苹果应用市场。3.根据权利要求1所述的基于聚类的应用市场刷榜共谋组检测方法,其特征在于,所述步骤1中通过爬取所得到的数据集中的数据特征包括但不限于:评论者姓名、评论内容、评论分数、评论的应用、评论的应用数量和评论字数。4.根据权利要求1所述的基于聚类的应用市场刷榜共谋组检测方法,...

【专利技术属性】
技术研发人员:何道敬潘梦函唐宗力
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1