一种移动应用数据处理方法技术

技术编号:20025843 阅读:33 留言:0更新日期:2019-01-06 04:41
本发明专利技术属于移动应用领域,尤其涉及一种移动应用数据处理方法。本发明专利技术的一种移动应用数据处理方法,能够有效处理数据量庞大的评论数据,压缩无效数据,合理且迅速的甄别对移动应用的评价以及分析有用的数据并进行相应处理,本发明专利技术充分结合中文的语法特点,针对性地对评论数据进行处理和存储,能够大大加快中文评论数据的收集处理速度,该方法再现方便,工具简单,具有良好的应用前景。

【技术实现步骤摘要】
一种移动应用数据处理方法
本专利技术属于移动应用领域,尤其涉及一种移动应用数据处理方法。
技术介绍
随着移动应用的快速发展,各类移动APP日益成为人们日常生活中不可或缺的工具,与传统实体工具不同,移动APP的后台服务以及具体操作是不可见的,用户也不能或者仅能在很小的自由度下对自己的需求进行主动获取和分析,这些工作通常是由移动应用后台服务上经过数据获取和分析后主动向使用者进行推送或者利用更新等方式进行改变,这种方式使得用户不需要对移动应用的具体流程以及内部复杂的控制机理进行了解即可被动的获取相应信息或数据,但同时,这种被动的获取方式使得用户在使用移动应用过程中发现或者遇到问题、或者使用异常时不能主动进行改变,也缺乏有效途径能够将上述信息主动直接传递至用途有决策权的管理者层面,在此背景下,随着移动应用的推广而产生的用户体验数据就显得尤为重要,在各类用户体验数据中,由用户直接发表和陈述在接入端(主要是指各应用商场、论坛等信息收集环境)网页上的用户评论具有最直接的参考性。对于一个长期稳定发展并期望获得更多使用者得移动应用而言,收集用户评论,用来评价移动应用的使用效果,分析移动应用的优缺点,并进行针对性改进是一个必要的工作,但由于用户评论的数量庞大,且由于市场竞争以及大量用户无意识的行为,导致有效收集和分析用户评论难以进行。
技术实现思路
本专利技术创造的目的在于,提供一种移动应用数据处理方法,以能够快速有效的实现对移动应用评论数据的甄选筛查,以便于提取有效的关键数据为移动应用的评价分析提供依据。为实现上述目的,本专利技术创造采用如下技术方案。一种移动应用数据处理方法,包括如下内容,一、用于获取移动应用相关数据的步骤,包括获取软件标志数据,所述软件标志数据包括软件名称、软件分类以及软件简介;二、用于从用户评论数据中获取评论相关的元素数据的步骤,所述元素数据包括用户评论、软件版本、评论端口、评论时间、用户ID;具体包括如下步骤:步骤1、接入评论端口,获取网页数据,搜索需要抓取数据的移动应用的标志数据,对标志数据相应的网页进行抓取;在抓取数据时需要对网页的加载方式进行判断,并根据不同加载方式使用不同的分析方法抓取数据,具体是指采用Jsoup分析静态加载方式的网页标签数据,采用HttpUnit抓取动态加载方式的网页标签数据;步骤2、判断该网页数据是否含有的标志数据相应的移动应用;若有抓取各网页并存入相应数据库;所述数据库是根据各移动应用作为分类因素分别建立的与各移动应用相应的数据库;步骤3、判断是否还有后续网页,若有则跳转至步骤二,若无则跳转至步骤4;步骤4、将所有以抓取的网页转换为文本格式,定位和获取评论数据相对应的元素数据;所述定位和获取评论数据相对应的元素数据具体包括,步骤4.1、,对用户评论数据进行分词和词性标注处理,提取名词n、动词v以及形容词a构成关键词集;定义移动应用对应的第i条用户评论的关键词集Ki,Ki={w0/f0,w1/f1......,wk/fk},其中,k=0,1,2......K-1,K为第i条评论的分词数,wk为评论中第ki个分词,fk为wk的词性;其中分词工具是指用于进行分词、词性标注、词性识别、字词识别等功能的应用工具;步骤4.2、提取关键词集Ki中仅有形容词a的评论数据,将原关键词集中所有的wk存入优化后的关键词集KNewi,其中优化后的关键词集KNewi定义为:KNewi={w0,w1......wj},其中j=0,1,2......J-1,J为第i条评论优化后的关键词数,wj为评论优化关键词集中的第J个词;步骤4.3、提取关键词集Ki中含有{n+a}、{v+a}、{n+v}、{n+v+a}的评论数据,将原关键词集中非a的wk相应的词性存入优化关键词集KNewi,相应的词性存入优化关键词性集FNewi,其中优化后的关键词集FNewi定义为:FNewi={f0、f1......fj},其中,fj为评论优化关键词集中的wj的词性;三、用于提取关键词集和计算关键词集中元素对移动应用评分权重的步骤,其具体步骤包括:步骤1、对每个移动应用建立属于自己的特征词库,具体是指根据特征词的词性建立特征词库,包括动词特征库、名词特征库、形容词特征库;步骤2、对每个移动应用抽取关键词集中的关键词wj,wj在对应词性fj的特征库中的频数Tj、包含有wj的文本数Nj以及文本总数N;步骤3、根据公式①计算各条用户评论与移动应用评分的权重得分S,并判断其得分是否大于阈值α,若大于阈值则判断为有效评论,否则判定为无用评论;其中mj是指wj对应词性fj特征库中的平均特征频数,J为第i条评论优化后的关键词数。1.根据权利要求1所述一种移动应用数据处理方法,所述阈值α是一个用于控制关键词集容量以控制计算量或者用于涮选数据关联度的数值,该值通过统计后人工指定,在计算资源能够有效处理所有数据的情况下。2.根据权利要求1所述一种移动应用数据处理方法,在计算资源能够有效处理所有数据的情况下,阈值α=1。根据权利要求1所述一种移动应用数据处理方法,对每一个待评价移动应用而言,获取的用户评论总数应当不小于1000条,评论的获取周期应当不小于30天,所述周期是指数据库中最早发表的和最晚发表的用户评论的时间间隔。其有益效果在于:本专利技术的一种移动应用数据处理方法,能够有效处理数据量庞大的评论数据,压缩无效数据,合理且迅速的甄别对移动应用的评价以及分析有用的数据并进行相应处理,本专利技术充分结合中文的语法特点,针对性地对评论数据进行处理和存储,能够大大加快中文评论数据的收集处理速度,该方法再现方便,工具简单,具有良好的应用前景。附图说明图1是本专利技术实施例中移动应用评论数据抓取方法的流程示意图;图2是关键词集提取方法的示意图;图3是本专利技术实施例中关键词及优化步骤的示意图;图4是本专利技术实施例中用户评论有关性分析方法的流程图。具体实施方式以下结合具体实施例对本专利技术创造作详细说明。本专利技术中,为实现对移动应用用户评论的涮选评价,需要获取相应移动应用的相关数据以及用户评论数据,移动应用的相关数据主要包括软件标志数据用以对不同移动应用进行分类统计,同时根据移动应用的类型针对性的对用户评论进行甄选,本实施例中软件标志数据具体包括软件名称、软件分类以及软件简介。为实现最终的评价目的,需要针对移动应用的用户评论数据进行分析判断,并根据用户评论对应的软件版本等信息进行分类甄别,为了便于对评论数据进行分类、抽取等工作的进行,需要从用户评论数据中获取评论相关的元素数据,在本实施例中,元素数据具体包括用户评论、软件版本、评论端口、评论时间、用户ID,在具有相应分类或分级数据的基础上,还应当包括用户星级,以便于根据需要的情况下,对过于庞大的数据进行压缩、剔除低信用低价值数据,以提高工作效率。如图1所示为便于数据获取的顺利进行,本专利技术还包括了抓取移动应用数据的步骤,具体包括:一、接入评论端口,获取网页数据,搜索需要抓取数据的移动应用的标志数据,对标志数据相应的网页进行抓取;在抓取数据时需要对网页的加载方式进行判断,并根据不同加载方式使用不同的分析方法抓取数据,本实施例中,采用Jsoup分析静态加载方式的网页标签数据,采用HttpUnit抓取动态加载方式的网页标签数据;二、判本文档来自技高网...

【技术保护点】
1.一种移动应用数据处理方法,其特征在于,其含有如下步骤,步骤A、用于获取移动应用相关数据的步骤,包括获取软件标志数据,所述软件标志数据包括软件名称、软件分类以及软件简介;步骤B、用于从用户评论数据中获取评论相关的元素数据的步骤,所述元素数据包括用户评论、软件版本、评论端口、评论时间、用户ID;具体步骤如下:一、接入评论端口,获取网页数据,搜索需要抓取数据的移动应用的标志数据,对标志数据相应的网页进行抓取;在抓取数据时需要对网页的加载方式进行判断,并根据不同加载方式使用不同的分析方法抓取数据,具体是指采用Jsoup分析静态加载方式的网页标签数据,采用HttpUnit抓取动态加载方式的网页标签数据;二、判断该网页数据是否含有的标志数据相应的移动应用;若有抓取各网页并存入相应数据库;所述数据库是根据各移动应用作为分类因素分别建立的与各移动应用相应的数据库;三、判断是否还有后续网页,若有则跳转至步骤二,若无则跳转至步骤4;四、将所有以抓取的网页转换为文本格式,定位和获取评论数据相对应的元素数据;所述定位和获取评论数据相对应的元素数据具体包括,步骤4.1、,对用户评论数据进行分词和词性标注处理,提取名词n、动词v以及形容词a构成关键词集;定义移动应用对应的第i条用户评论的关键词集Ki,Ki={w0/f0,w1/f1......,wk/fk},其中,k=0,1,2......K‑1,K为第i条评论的分词数,wk为评论中第ki个分词,fk为wk的词性;其中分词工具是指用于进行分词、词性标注、词性识别、字词识别等功能的应用工具;步骤4.2、提取关键词集Ki中仅有形容词a的评论数据,将原关键词集中所有的wk存入优化后的关键词集KNewi,其中优化后的关键词集KNewi定义为:KNewi={w0,w1......wj},其中j=0,1,2......J‑1,J为第i条评论优化后的关键词数,wj为评论优化关键词集中的第J个词;步骤4.3、提取关键词集Ki中含有{n+a}、{v+a}、{n+v}、{n+v+a}的评论数据,将原关键词集中非a的wk相应的词性存入优化关键词集KNewi,相应的词性存入优化关键词性集FNewi,其中优化后的关键词集FNewi定义为:FNewi={f0、f1......fj},其中,fj为评论优化关键词集中的wj的词性;步骤C、用于提取关键词集和计算关键词集中元素对移动应用评分权重的步骤,其具体步骤包括:步骤1、对每个移动应用建立属于自己的特征词库,具体是指根据特征词的词性建立特征词库,包括动词特征库、名词特征库、形容词特征库;步骤2、对每个移动应用抽取关键词集中的关键词wj,wj在对应词性fj的特征库中的频数Tj、包含有wj的文本数Nj以及文本总数N;步骤3、根据公式①计算各条用户评论与移动应用评分的权重得分S,并判断其得分是否大于阈值α,若大于阈值则判断为有效评论,否则判定为无用评论;...

【技术特征摘要】
1.一种移动应用数据处理方法,其特征在于,其含有如下步骤,步骤A、用于获取移动应用相关数据的步骤,包括获取软件标志数据,所述软件标志数据包括软件名称、软件分类以及软件简介;步骤B、用于从用户评论数据中获取评论相关的元素数据的步骤,所述元素数据包括用户评论、软件版本、评论端口、评论时间、用户ID;具体步骤如下:一、接入评论端口,获取网页数据,搜索需要抓取数据的移动应用的标志数据,对标志数据相应的网页进行抓取;在抓取数据时需要对网页的加载方式进行判断,并根据不同加载方式使用不同的分析方法抓取数据,具体是指采用Jsoup分析静态加载方式的网页标签数据,采用HttpUnit抓取动态加载方式的网页标签数据;二、判断该网页数据是否含有的标志数据相应的移动应用;若有抓取各网页并存入相应数据库;所述数据库是根据各移动应用作为分类因素分别建立的与各移动应用相应的数据库;三、判断是否还有后续网页,若有则跳转至步骤二,若无则跳转至步骤4;四、将所有以抓取的网页转换为文本格式,定位和获取评论数据相对应的元素数据;所述定位和获取评论数据相对应的元素数据具体包括,步骤4.1、,对用户评论数据进行分词和词性标注处理,提取名词n、动词v以及形容词a构成关键词集;定义移动应用对应的第i条用户评论的关键词集Ki,Ki={w0/f0,w1/f1......,wk/fk},其中,k=0,1,2......K-1,K为第i条评论的分词数,wk为评论中第ki个分词,fk为wk的词性;其中分词工具是指用于进行分词、词性标注、词性识别、字词识别等功能的应用工具;步骤4.2、提取关键词集Ki中仅有形容词a的评论数据,将原关键词集中所有的wk存入优化后的关键词集KNewi,其中优化后的关键词集KNewi定义为:KNewi...

【专利技术属性】
技术研发人员:邓春林王再超谢言
申请(专利权)人:湖北中医药大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1