一种基于计量经济学的移动应用评论分析与挖掘方法技术

技术编号:20944318 阅读:33 留言:0更新日期:2019-04-24 02:19
本发明专利技术提供一种基于计量经济学的移动应用评论分析与挖掘方法,涉及融合不同类型用户生成数据并进行分析与挖掘,具体地说,基于用户在移动应用市场上传的海量评论建立计量经济学模型,以此生成有指导意义的用户反馈。该方法不仅能够通过特征提取深入分析用户的实际需求,同时利用计量经济学模型刻画不同因素对于移动应用下载量的影响,能够同时满足不同的用户需求。

An Analysis and Mining Method of Mobile Application Comments Based on Econometrics

The invention provides an Econometrics-Based analysis and mining method for mobile application reviews, which involves fusing data generated by different types of users and analyzing and mining them. Specifically, an econometrics model is established based on mass reviews uploaded by users in the mobile application market to generate instructive user feedback. This method can not only deeply analyze the actual needs of users through feature extraction, but also use econometric models to describe the impact of different factors on the download of mobile applications, which can meet different user needs at the same time.

【技术实现步骤摘要】
一种基于计量经济学的移动应用评论分析与挖掘方法
本专利技术属于数据挖掘领域,具体涉及一种基于计量经济学的移动应用评论分析与挖掘方法。
技术介绍
近年来,随着移动互联网的快速发展,智能手机正成为“人-机-物”三元世界互相沟通和融合的门户。与此同时,移动应用的数量也迅速增长,融入了衣食住行各个领域。对于移动应用开发者来说,同类型的产品数量增多,竞争日趋激烈,而应对这一挑战的关键在于推出更加贴近用户关注和需求的产品。面对日益增长的用户评论,非常需要一种高效的分析与挖掘方法来处理海量信息,从而为移动应用开发者提供指导。专利CN106227720A提出了一种APP软件用户评论模式识别方法,该专利基于自然语言处理技术对评论数据进行分析,选择词性组合模板,最终确定软件用户的评论模式。专利CN101667194A提出了一种基于用户评论文本特征的自动摘要方法及其自动摘要系统,该专利基于特征识别和评论分类的结果,计算关键词权重并生成文本评论摘要。然而根据调研发现,各大移动应用市场均公开了下载量信息。上述专利的不足之处在于没有融合其他可用的数据源,比如下载量,简单地基于文本挖掘技术,实现方法过于简单,不能充分地挖掘文本评论中包含的丰富信息,难以满足实际需求。
技术实现思路
为了克服现有方法不能有效挖掘移动应用评论的不足,本专利技术提供一种基于计量经济学的移动应用评论分析与挖掘方法。该方法不仅能够通过特征提取深入分析用户的实际需求,同时利用计量经济学模型刻画不同因素对于移动应用下载量的影响,能够同时满足不同的用户需求。为了实现上述目的,本专利技术采取的技术方案为:一种基于计量经济学的移动应用评论分析与挖掘方法,包括如下步骤:S1、将网上下载的数据整理融合并写入数据库;S2、数据初处理:将数据处理成符合条件的格式;S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S1中的数据包括用户评论、各版本发布时间、下载量信息。进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S2数据初处理步骤具体包括以下步骤:S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声;S22:同时根据是否包含非法字符过滤异常数据;S23:利用标点符号或空格符将原始文本评论分割为短句,将结果保存。进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述步骤S3的置信度定义为:其中,conf(asp)代表移动应用特征asp的置信度,conf(pati)代表第i种文本模式pat的置信度(在预处理阶段直接计算得出),n表示相应文本模式的数量;匹配文本模式数量越多的应用特征,其置信度越高;通过计算置信度,得到有效的种子特征集合以便进一步的迭代。进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述步骤S5的计量经济学模型为,其中,log(downloads)t代表在t时刻对移动应用下载量取对数的结果,βi代表第i个移动应用特征的系数,α代表移动应用相关的人工调节参数,εt代表在t时刻的误差项。进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S5中下载量指标需要归一化处理。本专利技术具有以下有益效果为,基于移动应用市场公开的多源异构数据,以移动应用的演化作为背景,引入计量经济学模型,弥补了传统文本挖掘方法的不足,有助于移动应用开发者更好地了解用户反馈,进而提高用户满意度。附图说明图1为本专利技术基于计量经济学的移动应用评论分析与挖掘总结流程图。具体实施方式下面结合附图来进一步描述本专利技术的技术方案。S1、将网上下载的数据整理融合并写入数据库;以视频类移动应用“优酷”为例。编写网络爬虫程序,从移动应用商店抓取用户评论、各版本发布时间、下载量信息,整理融合并写入数据库。S2、数据初处理:将数据处理成符合条件的格式;S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声:利用分词工具对文本评论进行分词并过滤停用词。根据文本评论的长度筛选原始用户评论,阈值长度设定为5,降低无意义评论引入的噪声。S22:同时根据是否包含非法字符过滤异常数据:然后过滤包含非中文字符的异常评论数据,S23:最后利用标点符号或空格符将原始文本评论分割为短句,将结果保存。S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;置信度定义为:其中,conf(asp)代表移动应用特征asp的置信度,conf(pati)代表第i种文本模式pat的置信度(在预处理阶段直接计算得出),n表示相应文本模式的数量;匹配文本模式数量越多的应用特征,其置信度越高;通过计算置信度,得到有效的种子特征集合以便进一步的迭代。根据步骤2的结果,借助半监督学习的思路,首先人工选择若干种子特征,初始化3个特征:下载,界面,广告。在迭代过程中,利用自助采样模型BootStrapping计算每一个特征的置信度,将高置信度的特征加入候选特征集合T。其中,候选特征集合T的元素个数的上限设定为10。S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;基于S3得到的候选特征集合T,根据是否包含至少一个特征来生成候选评论集R。对于候选评论集R中的每一条评论,利用NLP模型计算其情感倾向,输出-1代表负面,0代表中性,1代表正面,若情感倾向计算结果为0或者-1,则将其添加到用户反馈集合F。其中,用户反馈集合F的元素个数没有上限。S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;其中下载量指标需要归一化处理。计量经济学模型为,其中,log(downloads)t代表在t时刻对移动应用下载量取对数的结果,βt代表第i个移动应用特征的系数,α代表移动应用相关的人工调节参数,εt代表在t时刻的误差项。对于视频类移动应用“优酷”,首先对其下载量指标进行均值归一化处理。然后基于已经得到的候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于“优酷”应用下载量的影响。在模型中具体表现为差异化的权重,进而挖掘具有显著影响效力的因素。S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。本文档来自技高网...

【技术保护点】
1.一种基于计量经济学的移动应用评论分析与挖掘方法,其特征在于:包括如下步骤:S1、将网上下载的数据整理融合并写入数据库;S2、数据初处理:将数据处理成符合条件的格式;S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。

【技术特征摘要】
1.一种基于计量经济学的移动应用评论分析与挖掘方法,其特征在于:包括如下步骤:S1、将网上下载的数据整理融合并写入数据库;S2、数据初处理:将数据处理成符合条件的格式;S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。2.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S1中的数据包括用户评论、各版本发布时间、下载量信息。3.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S2数据初处理步骤具体包括以下步骤:S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声;S22:同时根...

【专利技术属性】
技术研发人员:郭斌郭彤於志文王柱王亮周兴社
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1