当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于聚类的移动应用下载量预测方法技术

技术编号:11904934 阅读:86 留言:0更新日期:2015-08-19 17:53
本发明专利技术提供一种基于聚类的移动应用下载量预测方法,包括:1)从后台数据中收集所有已知的app的历史数据,2)源数据处理,3)模式聚类,下载量预测。本发明专利技术创新性地进行app下载量预测,在app领域需求明显,并且具有良好拓展性,在其他电商领域具有十分广泛的应用前景,并且,本发明专利技术在考虑app下载曲线特性的基础上修改K-means算法,并优化求解效率。整个聚类过程可以在线下完成,而下载量的预测值计算在线上完成,优化了用户体验。

【技术实现步骤摘要】

本专利技术属于移动互联网应用领域。主要利用了余弦相似度与K中心聚类方法,实 现了一种针对移动应用(app)下载量的预测机制。
技术介绍
随着移动互联网大潮的到来,近年来移动应用(app)蓬勃发展,以谷歌市场为例 (GooglePlay)目前其app数目已超过100万,而累计下载量则超过500亿。不论android 还是ios的app应用市场,其网页或者应用端的展示页面都十分有限制,而大部分的app得 不到有效的展示。工业界将传统电商中的推荐机制逐渐引入到app领域,以此作为用户发 现感兴趣优质app的一种途径,同时也是一部分欠热门优质app曝光的有效途径。但目前 没有一种对潜在的优质app的发掘方法。
技术实现思路
本专利技术所要解决的技术问题是提供,能 够根据app的已知下载量对其后一段时间的总下载量进行预测。 本专利技术解决技术问题所采用的技术方案是:一种基于聚类的移动应用下载量预测 方法,包括以下步骤: 1)从后台数据中收集所有已知的app的历史数据。 2)源数据处理,对步骤1)中的数据进行处理,生成长度为L的离散时间序列X以 表示每一个app的下载曲线,至此所有app的下载曲线组成一个离散时间序列训练数据 集; 3)模式聚类,将步骤2)中生成的离散时间序列数据集进行聚类,得到k个下载模 式; 4)下载量预测,给定一个app在m天内的下载曲线,与k个下载模式进行匹配,计 算之后(L-m)天的总下载量,得到预测结果。 在采用上述技术方案的同时,本专利技术还可以采用或者组合采用以下进一步的技术 方案: 所述步骤2)具体包括以下步骤: (1)给定下载阈值thr;thr为人为指定的参数,默认thr= 0. 1.在thr确定的基 础上可以计算得到整个训练数据集的LdPL2,一般调节thr使得U+L2不小于原序列长度 的 2/3。 (2)为离散时间序列数据集中的每一条离散时间序列X,计算相应的Q(x)和 L2 (x),其中U(x)表示从Lp开始往左数日下载量第一次下降到thr*vp所用的天数,相应的, L2(x)用表示从Lp开始往右数曰下载量第一次下降到thr*vp所用的天数;Lp为序列中指定 的一天,vp为下载量的峰值。 (3)计算所有训练数据集中1^〇〇 *L2(X)的平均值1^和1^2。加:截取每条离散序 列峰值所在日前U天和后L2天的下载数据,左边截取天数不足L:时,用右侧数据填充。相 应的,用左侧数据填补右侧数据的不足。以确保所有序列的长度均为L(L=Li+L2)。至此, 源数据被处理为长度均为L的离散时间序列。 所述步骤3)具体包括以下步骤: (1)设定训练数据集中模式聚类的个数k;k为人工指定的参数,默认k=6,其具 体值根据聚类效果进行调整。 (2)从训练数据集中随机指定k条曲线为k个聚类的中心,计算每个非中心离散时 间序列x到k个中心的曲线距离d(x,c);d(x,c)表示x与某一个聚类中心的距离,c专门指代聚类中心(center),根据 d(x,c)将该离散序列划分到离它最近的聚类中心所在的类。 (3)更新聚类中心k,每次聚类中心更新的目标变为最小化F; 在给定的类划分下,聚类更新的目标为最小化类中每一条离散时间序列到类中心 的距离平方的和。【主权项】1. ,其特征在于;所述方法包括w下步骤: 1) 从后台数据中收集所有已知的app的历史数据。 2) 源数据处理,对步骤1)中的数据进行处理,生成长度为L的离散时间序列XW表示 每一个app的下载曲线,至此所有app的下载曲线组成一个离散时间序列训练数据集; 3) 模式聚类,将步骤2)中生成的离散时间序列数据集进行聚类,得到k个下载模式; 4) 下载量预测,给定一个app在m天内的下载曲线,与k个下载模式进行匹配,计算之 后a-m)天的总下载量,得到预测结果。2. 如权利要求1所述的,其特征在于:所述 步骤2)具体包括W下步骤: (1)给定下载阔值thr; 似为离散时间序列数据集中的每一条离散时间序列X,计算相应的Li(x)和L,(x),其 中Li(x)表示从Lp开始往左数日下载量第一次下降到t虹*Vp所用的天数,相应的,L2(x)用 表示从Lp开始往右数日下载量第一次下降到thr*Vp所用的天数; (3)计算所有训练数据集中Li(X)和L2(X)的平均值Li和L2。3. 如权利要求1所述的,其特征在于: 所述步骤3)具体包括W下步骤: (1) 设定训练数据集中模式聚类的个数k; (2) 从训练数据集中随机指定k条曲线为k个聚类的中屯、,计算每个非中屯、离散时间序 列X到k个中屯、的曲线距离d(x,C); (3) 更新聚类中屯、k,每次聚类中屯、更新的目标变为最小化F;(1) 其中UkiCk分别为第k个类的中屯、W及归属于第k类的曲线。 根据公式(1)可W导出每次第k类更新的值:(2) 其中为更新之后第k类中屯、的值。进一步由公式3可W先后导出公式4 : (4) 4'可W得到最终的计算方式:因此,就是矩阵M最小特征值对应的特征向量。4.如权利要求1所述的,其特征在于: 所述步骤4)具体包括W下步骤: (1) 给定一个app,其前m天的下载曲线是长度为m的离散时间序列test,计算test和 每个中屯、(聚类中屯、本身就是一条长度为L的离散序列)前m天构成的离散序列的余弦相 似度,选择最相似的类中屯、C; (2) 该其后的km天的下载量总和pred预测如下:其中,C表示选定的最相似的类中屯、,那么cj表示离散序列C的第j项。【专利摘要】本专利技术提供,包括:1)从后台数据中收集所有已知的app的历史数据,2)源数据处理,3)模式聚类,下载量预测。本专利技术创新性地进行app下载量预测,在app领域需求明显,并且具有良好拓展性,在其他电商领域具有十分广泛的应用前景,并且,本专利技术在考虑app下载曲线特性的基础上修改K-means算法,并优化求解效率。整个聚类过程可以在线下完成,而下载量的预测值计算在线上完成,优化了用户体验。【IPC分类】G06Q30-00【公开号】CN104850998【申请号】CN201510178285【专利技术人】吴健, 邱奇波, 陈亮, 邓水光, 李莹, 尹建伟, 吴朝晖 【申请人】浙江大学【公开日】2015年8月19日【申请日】2015年4月15日本文档来自技高网...

【技术保护点】
一种基于聚类的移动应用下载量预测方法,其特征在于:所述方法包括以下步骤:1)从后台数据中收集所有已知的app的历史数据。2)源数据处理,对步骤1)中的数据进行处理,生成长度为L的离散时间序列x以表示每一个app的下载曲线,至此所有app的下载曲线组成一个离散时间序列训练数据集;3)模式聚类,将步骤2)中生成的离散时间序列数据集进行聚类,得到k个下载模式;4)下载量预测,给定一个app在m天内的下载曲线,与k个下载模式进行匹配,计算之后(L‑m)天的总下载量,得到预测结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴健邱奇波陈亮邓水光李莹尹建伟吴朝晖
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1