一种移动应用数据处理方法技术

技术编号：20025843 阅读：33 留言：0更新日期：2019-01-06 04:41

本发明专利技术属于移动应用领域，尤其涉及一种移动应用数据处理方法。本发明专利技术的一种移动应用数据处理方法，能够有效处理数据量庞大的评论数据，压缩无效数据，合理且迅速的甄别对移动应用的评价以及分析有用的数据并进行相应处理，本发明专利技术充分结合中文的语法特点，针对性地对评论数据进行处理和存储，能够大大加快中文评论数据的收集处理速度，该方法再现方便，工具简单，具有良好的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
一种移动应用数据处理方法
本专利技术属于移动应用领域，尤其涉及一种移动应用数据处理方法。
技术介绍
随着移动应用的快速发展，各类移动APP日益成为人们日常生活中不可或缺的工具，与传统实体工具不同，移动APP的后台服务以及具体操作是不可见的，用户也不能或者仅能在很小的自由度下对自己的需求进行主动获取和分析，这些工作通常是由移动应用后台服务上经过数据获取和分析后主动向使用者进行推送或者利用更新等方式进行改变，这种方式使得用户不需要对移动应用的具体流程以及内部复杂的控制机理进行了解即可被动的获取相应信息或数据，但同时，这种被动的获取方式使得用户在使用移动应用过程中发现或者遇到问题、或者使用异常时不能主动进行改变，也缺乏有效途径能够将上述信息主动直接传递至用途有决策权的管理者层面，在此背景下，随着移动应用的推广而产生的用户体验数据就显得尤为重要，在各类用户体验数据中，由用户直接发表和陈述在接入端(主要是指各应用商场、论坛等信息收集环境)网页上的用户评论具有最直接的参考性。对于一个长期稳定发展并期望获得更多使用者得移动应用而言，收集用户评论，用来评价移动应用的使用效果，分析移动应用的优缺点，并进行针对性改进是一个必要的工作，但由于用户评论的数量庞大，且由于市场竞争以及大量用户无意识的行为，导致有效收集和分析用户评论难以进行。
技术实现思路
本专利技术创造的目的在于，提供一种移动应用数据处理方法，以能够快速有效的实现对移动应用评论数据的甄选筛查，以便于提取有效的关键数据为移动应用的评价分析提供依据。为实现上述目的，本专利技术创造采用如下技术方案。一种移动应用数据处理方法，...

【技术保护点】
1.一种移动应用数据处理方法，其特征在于，其含有如下步骤，步骤A、用于获取移动应用相关数据的步骤，包括获取软件标志数据，所述软件标志数据包括软件名称、软件分类以及软件简介；步骤B、用于从用户评论数据中获取评论相关的元素数据的步骤，所述元素数据包括用户评论、软件版本、评论端口、评论时间、用户ID；具体步骤如下：一、接入评论端口，获取网页数据，搜索需要抓取数据的移动应用的标志数据，对标志数据相应的网页进行抓取；在抓取数据时需要对网页的加载方式进行判断，并根据不同加载方式使用不同的分析方法抓取数据，具体是指采用Jsoup分析静态加载方式的网页标签数据，采用HttpUnit抓取动态加载方式的网页标签数据；二、判断该网页数据是否含有的标志数据相应的移动应用；若有抓取各网页并存入相应数据库；所述数据库是根据各移动应用作为分类因素分别建立的与各移动应用相应的数据库；三、判断是否还有后续网页，若有则跳转至步骤二，若无则跳转至步骤4；四、将所有以抓取的网页转换为文本格式，定位和获取评论数据相对应的元素数据；所述定位和获取评论数据相对应的元素数据具体包括，步骤4.1、，对用户评论数据进行分词和词性标注处理...

【技术特征摘要】
1.一种移动应用数据处理方法，其特征在于，其含有如下步骤，步骤A、用于获取移动应用相关数据的步骤，包括获取软件标志数据，所述软件标志数据包括软件名称、软件分类以及软件简介；步骤B、用于从用户评论数据中获取评论相关的元素数据的步骤，所述元素数据包括用户评论、软件版本、评论端口、评论时间、用户ID；具体步骤如下：一、接入评论端口，获取网页数据，搜索需要抓取数据的移动应用的标志数据，对标志数据相应的网页进行抓取；在抓取数据时需要对网页的加载方式进行判断，并根据不同加载方式使用不同的分析方法抓取数据，具体是指采用Jsoup分析静态加载方式的网页标签数据，采用HttpUnit抓取动态加载方式的网页标签数据；二、判断该网页数据是否含有的标志数据相应的移动应用；若有抓取各网页并存入相应数据库；所述数据库是根据各移动应用作为分类因素分别建立的与各移动应用相应的数据库；三、判断是否还有后续网页，若有则跳转至步骤二，若无则跳转至步骤4；四、将所有以抓取的网页转换为文本格式，定位和获取评论数据相对应的元素数据；所述定位和获取评论数据相对应的元素数据具体包括，步骤4.1、，对用户评论数据进行分词和词性标注处理，提取名词n、动词v以及形容词a构成关键词集；定义移动应用对应的第i条用户评论的关键词集Ki，Ki＝{w0/f0，w1/f1......，wk/fk}，其中，k＝0，1，2......K-1，K为第i条评论的分词数，wk为评论中第ki个分词，fk为wk的词性；其中分词工具是指用于进行分词、词性标注、词性识别、字词识别等功能的应用工具；步骤4.2、提取关键词集Ki中仅有形容词a的评论数据，将原关键词集中所有的wk存入优化后的关键词集KNewi，其中优化后的关键词集KNewi定义为：KNewi...

【专利技术属性】
技术研发人员：邓春林，王再超，谢言，
申请(专利权)人：湖北中医药大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人