基于属性的移动应用软件性能预测方法技术

技术编号:13392765 阅读:59 留言:0更新日期:2016-07-22 18:28
本发明专利技术公开了一种基于属性的移动应用软件性能预测方法,用于解决现有移动应用软件性能预测方法实用性差的技术问题。技术方案是使用网络爬虫程序采集商用软件应用属性信息,基于采集到的软件应用属性信息提取不同的属性标签,对每个应用构建基于词频‑逆文档频率方法的内在特征向量,处理已有的用户评论信息,提取评论中负面评论的内容并排序选择出现次数较高的词语作为负面评论关键词,根据负面评论与应用属性的关系,构建负面关键词与应用属性标签的关系矩阵,利用关键词与应用特征向量的关系矩阵推导出利用关键词表示的应用外部特性,结合应用的内在特性和外部特性,使用决策树分类器,对应用的性能好坏进行分类学习并预测。实用性强。

【技术实现步骤摘要】

【技术保护点】
一种基于属性的移动应用软件性能预测方法,其特征在于包括以下步骤:步骤一、使用网络爬虫程序采集目标应用商店内软件应用属性信息,其中包括软件分类信息和软件自身调用系统权限信息,并采集已有的用户评论信息;步骤二、基于采集到的应用属性信息,提取不同的属性标签;步骤三、针对不同的应用,根据其包含的属性标签,利用词频‑逆文档频率方法构建内在特征向量;内在特征向量由公式(1)给出,IFj=<Ttag1,j,Ttag2,j,......,Ttagn,j>   (1)其中,Ttagi,j表示第j个应用中,第i个属性标签的词频‑逆文档频率的数值大小,Ttagi,j由公式(2)给出,Ttagi,j=tfi,j×idfi   (2)其中,tfi,j是指第i属性标签出现的频率,idfi表示的是第i个属性标签的逆文档频率,idfi由公式(3)给出,idfi=log2|D||{j:ti∈IFj}|---(3)]]>其中,|D|表示所有的应用数量,|{j:ti∈IFj}|表示包含有第i个属性标签的应用数量;步骤四、通过使用中文分词工具,将用户的评论语句划分为互相独立的词语,并收集差评中各个词语出现的频数,按照词语出现次数进行排序,提取评论中负面评论的内容并排序选择出现次数较高的词语作为负面评论关键词;公式(4)给出了每个关键词负面影响力大小的度量,NFi=freqiMaxk=1m(freqk)×exp(1-i)---(4)]]>其中,freqi表示排序为第i个关键词出现的总频数,表示的是前m个关键词中出现频数的最大值,同时假设词语的负面影响力呈指数衰减,进而加入了指数衰减因子exp(1‑i);步骤五、根据负面评论与应用属性的关系,构建负面关键词与应用属性标签的关系矩阵,利用关键词与应用特征向量的关系矩阵推导出利用关键词表示的应用外部特征向量;所述关系矩阵由m行关键词乘以n列属性信息组成;针对每条信息和其对应的应用,如果负面评论中包含第i个关键词,并且应用属性具有第j个属性,就对关系矩阵中第<i,j>个元素加一,直到遍历完所有评论信息;在关系矩阵构建完成后,应用的外部特征向量由公式(5)给出,EFi=<NF1×p(word1),......,NFm×p(wordm)>   (5)其中,NFj表示第j个负面关键词的影响力大小,其通过公式(4)计算得到;p(wordj)表示为针对该应用第j关键词可能出现的概率,p(wordj)值的大小通过公式(6)计算得到,p(wordj)=Σk=1ntagk×p(wordj,tagk)---(6)]]>其中,tagk是该应用第k个属性标签的词频‑逆文档频率值大小,p(wordj,tagk)表示第j个关键词对于第k个属性标签出现的条件概率,通过构建的关系矩阵计算获取;步骤六、结合应用的内在特征向量和外部特征向量,使用决策树分类器,对应用的性能好坏进行分类学习并预测。...

【技术特征摘要】

【专利技术属性】
技术研发人员:於志文弋飞郭斌王柱
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1