一种基于深度模拟操作的数据采集方法技术

技术编号:37849840 阅读:9 留言:0更新日期:2023-06-14 22:37
本发明专利技术提供一种基于深度模拟操作的数据采集方法,包括:采集多个APP多次进行完整操作行为的数据集;利用数据集训练利用DQN算法建立的模拟用户操作模型;模拟用户操作模型对目标APP进行界面识别和模拟用户操作,根据界面识别的内容类型确定对应的操作类型,同时采集模拟用户操作过程中的所有数据。本发明专利技术通过收集大量不同手机操作不同APP的行为数据进行深度强化学习算法模型训练,通过改进的训练方法,实现通过模拟真人操作的方式采集信息。实现通过模拟真人操作的方式采集信息。实现通过模拟真人操作的方式采集信息。

【技术实现步骤摘要】
一种基于深度模拟操作的数据采集方法


[0001]本专利技术属于数据采集
,具体涉及一种基于深度模拟操作的数据采集方法。

技术介绍

[0002]移动互联网时代的到来令人们阅读新闻的习惯、方式、场景和渠道均发生了重大的转变。一方面,人们在固定场所浏览新闻的时间减少,而利用碎片化时间获取新闻的时间不断增加,从而呈现出典型的移动化、碎片化、便利化的趋势。另一方面,用户更喜欢“短、平、快”的新闻内容,且在阅读新闻过程中重视自身的参与度,导致移动新闻资讯平台愈发成为用户接收新闻的重要渠道之一。
[0003]为了保证APP的正常使用,需要在测试过程中对APP进行操作并采集相关数据进行进一步研究,例如研究同一型号手机中各项APP是否可以正常运行,同一APP在多个型号的手机中是否可以正常运行。目前一家手机开发企业旗下通常会有多个型号的手机,如今手机型号繁多、APP界面不统一,传统的APP数据采集方案对数据的自动化采集难度大,需要针对不同的手机及APP定制灵活性较差的程序,存在通用性差、操作单一、采集效率低的技术问题。其次,目前的自动化采集的操作单一,基本都是根据设定的程序自动执行,采集的测试数据不具备真实性、广泛性。

技术实现思路

[0004]针对现有技术的上述不足,本专利技术提供一种基于深度模拟操作的数据采集方法,以解决上述技术问题。
[0005]本专利技术提供一种基于深度模拟操作的数据采集方法,包括:采集多个APP多次进行完整操作行为的数据集;利用数据集训练利用DQN算法建立的模拟用户操作模型;所述模拟用户操作模型包括两个DQN网络模型,分别为行为策略网络和目标策略网络;将用户操作的控件定义为动作a,动作执行后显示的界面为状态s;行为策略网络用于,评价当前状态s
t
下每个动作a
t
的Q(),然后利用贪婪法选择选取Q()最大的动作a
t
,环境接收到动作a
t
后会给出一个奖励r
t
和下一个状态s
t+1
,得到每个时间步t下用户操作APP的状态转移数组{当前状态s
t
,当前状态s
t
生成的动作a
t
, 该动作a
t
产生的奖励r
t
,执行该动作后下一个状态s
t+1
};目标策略网络用于,根据当前状态s
t
生成当前时刻要执行的动作a
t
,表示根据当前的界面确定待操作的控件,根据下一个状态s
t+1
生成当前时刻要执行的动作a
t
,表示根据待跳转的界面确定待操作的控件;模拟用户操作模型对目标APP进行界面识别和模拟用户操作,根据界面识别的内容类型确定对应的操作类型,同时采集模拟用户操作过程中的所有数据。
[0006]进一步的,数据集按照APP化分成多个子集,即数据集为APP_Name={APP1,
APP2,

,APPn,

,APPN},其中N表示APP的总个数,APPn表示第n个APP,n∈[1 ,N];APPn子集内包括APPn对应用户操作数据APPn_Action,每一个APP操作行为子集为APPn_Action={Action1,Action2,

,Actionm,

,ActionM},其中M表示在APPn内进行完整操作行为的总次数,Actionm表示第m次操作,m∈[1 ,M];Actionm对应的用户操作数据包括:界面下滑长度、时长,控件的类型、位置、时长,以及每次下滑、点击控件后的界面变化数据;进一步的,还包括:在采集真人操作的过程中,自动记录用户的误操作行为,并对误操作类别及频次进行人工分类、标注,所述误操作包括:滑屏抖动、点击偏离、偶发误点击。
[0007]进一步的,Q()的训练函数为:;表示行为策略网络输出的Q值,为更新后的其中,I是迭代更新的次数,为学习参数,其中,,是Q值的目标参数;t为时间步,a
t
为t时刻的动作,s
t+1
为t时刻状态,a
t+1
为下一时刻
t+1
的动作,s
t
为下一时刻
t+1
的状态。
[0008]进一步的,对模拟用户操作模型的界面内容识别模块进行训练;内容识别包括识别页面内容为正常页或异常页,正常页的奖励为正,异常页的奖励为负;其中正常页中要识别内容类型,内容类型包括“文章”、“评论”、“图片”,根据内容类型确定对应未显示的动作;“文章”对应的动作为:下滑、放大字体、还原字体;“评论”对应的动作为展开评论详情、评论点赞、评论反对;“图片”对应的动作为单击放大图片、放大下滑图片。
[0009]进一步的,所述模拟用户操作模型对目标APP进行界面识别和模拟用户操作,包括:进入APP一级页面后,随机点击一级页面的控件;每次点击一个控件后进入该控件对应的二级页面,根据控件的类型采取不同的采集方式解析二级页面数据;每完成一次二级页面数据解析,则执行一次下滑操作,并判断每次滑动前界面UI结构,与滑动后界面UI结构是否一致,若不一致,则判定下滑未滑到界面底部,继续自动化模拟点击,进行重复操作;若一致,则判断当前界面滑动到底部了,点击返回到上一级界面;在二级页面查找评论模块、文章模块和照片模块,分别在评论模块、文章模块和照片模块界面内进行对应的动作的模拟操作;记录一级页面的控件的点击情况,获取完当前界面的数据,继续向下滑动,重复上述步骤。
[0010]本专利技术的有益效果在于:本专利技术提供的基于深度模拟用户操作的APP数据采集方法,通过收集大量不同手机操作不同APP的行为数据进行深度强化学习算法模型训练,通过改进的训练方法,实现通过模拟真人操作的方式采集信息,解决了现有手机APP测试时采用定制化采集时难度大、自动化程度低的问题。
[0011]建立深度拟人体系,记录真人操作中滑屏抖动、点击偏离、偶发误点击等误操作行为,对误操作类别及频次进行分析总结规律,避免了操作过于机械而造成的封禁,从而解决操作单一的问题。
[0012]记录控件的点击次数,确保自动化采集过程中数据无遗漏,避免了漏采错采的可能性,从而解决通用性差的问题。
[0013]可自动识别界面是否达到页面底部、识别不同的新闻类型,做到及时发现做出下一步操作,避免重复点击、持续滑动、文章不同类型采集没有针对性等操作的出现,从而解决采集效率低的问题。
附图说明
[0014]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0015]图1是本专利技术一个实施例的方法的示意性流程图。
[0016]图2是本专利技术一个实施例的模型内部通过状态确定动作的示意原本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度模拟操作的数据采集方法,其特征在于,包括:采集多个APP多次进行完整操作行为的数据集;利用数据集训练利用DQN算法建立的模拟用户操作模型;所述模拟用户操作模型包括两个DQN网络模型,分别为行为策略网络和目标策略网络;将用户操作的控件定义为动作a,动作执行后显示的界面为状态s;行为策略网络用于,评价当前状态s
t
下每个动作a
t
的Q(),然后利用贪婪法选择选取Q()最大的动作a
t
,环境接收到动作a
t
后会给出一个奖励r
t
和下一个状态s
t+1
,得到每个时间步t下用户操作APP的状态转移数组{当前状态s
t
,当前状态s
t
生成的动作a
t
, 该动作a
t
产生的奖励r
t
,执行该动作后下一个状态s
t+1
};目标策略网络用于,根据当前状态s
t
生成当前时刻要执行的动作a
t
,表示根据当前的界面确定待操作的控件,根据下一个状态s
t+1
生成当前时刻要执行的动作a
t
,表示根据待跳转的界面确定待操作的控件;模拟用户操作模型对目标APP进行界面识别和模拟用户操作,根据界面识别的内容类型确定对应的操作类型,同时采集模拟用户操作过程中的所有数据。2.根据权利要求1所述的方法,其特征在于,数据集按照APP化分成多个子集,即数据集为APP_Name={APP1,APP2,

,APPn,

,APPN},其中N表示APP的总个数,APPn表示第n个APP,n∈[1 ,N];APPn子集内包括APPn对应用户操作数据APPn_Action,每一个APP操作行为子集为APPn_Action={Action1,Action2,

,Actionm,

,ActionM},其中M表示在APPn内进行完整操作...

【专利技术属性】
技术研发人员:魏传强矫娟宋耀徐哲司君波
申请(专利权)人:山东齐鲁壹点传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1