一种自动化的应用数据收集、存储管理系统技术方案

技术编号:28049423 阅读:40 留言:0更新日期:2021-04-14 13:05
本发明专利技术公开一种自动化的应用数据收集、存储管理系统,包括:数据收集模块,数据预处理模块,数据存储模块;所述数据收集模块,用于通过页面自动化遍历以及用户行为跟踪的方式收集应用的数据,得到控件信息与数据截图:所述数据预处理模块,用于根据预定义的模板抽取控件中的信息,对于截取的图片通过文字定义并识别的方式进行文字识别,以及进行数据清洗、去重;所述数据存储模块,用于按预定存储规则对收集的清洗去重后的数据存储。本发明专利技术对IOS、安卓等移动设备上的应用数据收集效率与传统人工方法比可以节省时间20倍以上,针对电脑端上应用的数据采集效率可以节省时间10倍以上。的数据采集效率可以节省时间10倍以上。的数据采集效率可以节省时间10倍以上。

【技术实现步骤摘要】
一种自动化的应用数据收集、存储管理系统


[0001]本专利技术涉及应用数据收处理
,特别是涉及一种自动化的应用数据收集、存储管理系统。

技术介绍

[0002]目前,市面上各类型应用种类繁多,终端数据如何快速收集是企业中遇到的很大问题。大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统,用来记录事务处理的各种相关数据。企业如何通过各种技术手段,把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。ETL是主要的一个技术手段。要想做ETL,首先需要收集数据,快速高效的收集各类型应用中的数据,可以便于后续将数据进行各种变形和转换,才能构造出易于分析和理解的数据。在无法直接读取数据存储的情况下如无法访问数据库时,要想进行数据收集,常见的采集方法包括爬虫等,但是爬虫只能针对web服务。相比于web数据源的结构相对清晰、数据较容易获取,本专利技术重点面对的各类软件与应用想获取数据难度相对大得多。对于各种应用程序,常见的人工摘录等方法耗时耗力。而在应用中埋点的方法,只适合于拥有程序源码并获得修改权限的情况下,局限性很大。本申请专利技术人在实施本专利技术的过程中,发现现有技术的方法,至少存在如下技术问题:现有的程序数据收集方法局限性较大,无法适应不同的应用场景。同时缺少一种自动化的数据收集方法,也缺少对收集数据的存储与管理。

技术实现思路

[0003]本专利技术的目的是针对现有技术中存在的技术缺陷,而提供一种自动化的应用数据收集、存储管理系统,既可以支持IOS、安卓等移动设备中的应用也可以支持电脑端的应用。
[0004]为实现本专利技术的目的所采用的技术方案是:
[0005]一种自动化的应用数据收集、存储管理系统,包括:
[0006]数据收集模块,数据预处理模块,数据存储模块;
[0007]所述数据收集模块,用于通过页面自动化遍历以及用户行为跟踪的方式收集应用的数据,得到控件信息与数据截图;
[0008]所述数据预处理模块,用于根据预定义的模板抽取控件中的信息,对于截取的图片通过文字定义并识别的方式进行文字识别,以及进行数据清洗、去重;
[0009]所述数据存储模块,用于按预定存储规则对收集的清洗去重后的数据存储。
[0010]所述自动化的应用数据收集、存储管理系统,还包括数据管理模块,提供对所述数据收集模块,数据预处理模块,数据存储模块的状态监控与服务调用,实时监控数据收集模块实时的服务情况,数据收集速度,实时监控数据存储模块的数据存储状况与容量,对数据收集服务进行启动暂停停止管理。
[0011]其中,所述数据预处理模块在文字识别时,首先对图像进行预处理,通过图像处理判定文字所在区域,之后使用神经网络模型进行文字识别。
[0012]其中,所述数据存储模块采用自底向上的三级数据存储:第一级数据存储包括各个收集终端首先在本地存储原始数据并进行预处理,第二级数据存储包括各个类型终端分别收集对应的第一级中存储的数据进行统一存储,第三级数据存储包括收集第二级存储中的所有数据进行统一存储。
[0013]其中,所述数据收集模块的页面自动化遍历,是借助测试框架操作终端配合深度优先遍历算法进行页面遍历,遍历的过程中获取句柄、控件信息并进行数据截图,同时生成相应功能过程图;在页面遍历过程中,每次行为会触发记录控件中的信息并截图,通过此方式完成数据收集;对收集的数据建立索引进行优化。
[0014]进一步的,在页面自动化遍历中,还可结合测试框架操作封装的数据接口,直接进行相关的操作脚本编写。
[0015]其中,所述数据收集模块的用户行为跟踪,包括监听用户对于每个控件或者具体屏幕坐标位置进行的具体操作,并输出用户详细行为的过程文件;之后,分析用户对于哪些控件与位置进行操作、分别做了什么样的操作,并抽取仿真时对控制及各个位置进行操作的顺序关系,输出脚本供仿真操作使用;最后通过仿真自动模拟使用者采集数据使用的行为模式,按顺序完整操作用户界面各页面,规则化获取软件使用者操作界面、完成数据页面截图同时保存控件中的信息。
[0016]其中,所述具体操作包括点击、输入、拖动。
[0017]其中,所述监听用户操作在侦测到控件事件发生的同时,获取当前操作的控件,控件信息包括控件类型、控件种类名称、编号、控件所在位置坐标、控件名称,并收集操作窗口的句柄信息。
[0018]本专利技术针对各个类型应用程序的自动化数据收集处理,针对IOS、安卓等移动设备上的应用数据收集效率与传统人工方法比可以节省时间20倍以上,针对电脑端应用的数据采集效率可以节省时间10倍以上。
附图说明
[0019]图1为本专利技术的自动化的应用数据收集、存储管理系统的原理图;
[0020]图2所示为自动化的应用数据收集、存储管理系统的数据收集处理流程图;
[0021]图3所示为自动化的应用数据收集、存储管理系统的架构图;
[0022]图4所示为数据收集时的页面自动化遍历过程的流程图;
[0023]图5所示为跟踪屏幕中具体坐标位置操作的流程图。
[0024]图6所示为监听用户操作的流程图。
具体实施方式
[0025]以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0026]如图1-6所示,本专利技术自动化的应用数据收集、存储管理系统,包括:数据收集模块,数据预处理模块,数据存储模块,数据管理模块。
[0027]其中,数据收集模块收集数据时,采用页面自动化遍历以及用户行为跟踪的方式收集应用的数据,得到控件信息与数据截图:
[0028]本专利技术中,所述页面自动化遍历,是对于移动应用,借助测试框架(如airtest)操作终端,配合深度优先遍历算法进行页面遍历,遍历的过程中获取句柄、控件信息并进行数据截图,同时生成相应功能过程图。其中,在页面遍历过程中,每次行为会触发记录控件中的信息并截图,通过此方式完成数据收集。数据收集结果根据文件名可使用哈希表或者B树做索引以优化检索效率。
[0029]具体过程是,通过xpath页面抽取元素与控件,根据设定的相关规则对控件进行筛选,最终深度优先遍历得到路径记录与重定向以及弹窗(安装过程,权限,app提示)等,然后获取句柄、控件信息并进行数据截图,同时生成相应功能过程图。
[0030]此外,还可结合测试框架(如airtest)操作封装的数据接口,直接进行相关的操作脚本编写。
[0031]需要说明的是,所述自动页面遍历对于常见移动端如IOS、安卓或者电脑端应用等。
[0032]本专利技术中,所述用户行为跟踪的具体步骤如下:
[0033]首先,监听用户对于每个控件或者屏幕中具体坐标位置进行的具体操作,并输出用户详细行为的过程文件,其中常见的具体操作包括点击、输入、拖动等。
[0034]之后,分析用户对于哪些控件与位置进行操作、分别做了什么样的操作,并抽取仿真时对控本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动化的应用数据收集、存储管理系统,其特征在于,包括:数据收集模块,数据预处理模块,数据存储模块;所述数据收集模块,用于通过页面自动化遍历以及用户行为跟踪的方式收集应用的数据,得到控件信息与数据截图;所述数据预处理模块,用于根据预定义的模板抽取控件中的信息,对于截取的图片通过文字定义并识别的方式进行文字识别,以及进行数据清洗、去重;所述数据存储模块,用于按预定存储规则对收集的清洗去重后的数据存储。2.根据权利要求1所述自动化的应用数据收集、存储管理系统,其特征在于,还包括数据管理模块,提供对所述数据收集模块,数据预处理模块,数据存储模块的状态监控与服务调用,实时监控数据收集模块实时的服务情况,数据收集速度,实时监控数据存储模块的数据存储状况与容量,对数据收集服务进行启动暂停停止管理。3.根据权利要求1所述自动化的应用数据收集、存储管理系统,其特征在于,所述数据预处理模块在文字识别时,首先对图像进行预处理,通过图像处理判定文字所在区域,之后使用神经网络模型进行文字识别。4.根据权利要求1所述自动化的应用数据收集、存储管理系统,其特征在于,所述数据存储模块采用自底向上的三级数据存储:第一级数据存储包括各个收集终端首先在本地存储原始数据并进行预处理,第二级数据存储包括各个类型终端分别收集对应的第一级中存储的数据进行统一存储,第三级数据存储包括收集第二级存储中的所有数据进行统一存储。5.根据权利要求1所述自动化的应用数据收集、存储管理系统...

【专利技术属性】
技术研发人员:李双芝
申请(专利权)人:烟台职业学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1