任务操作指令映射模型训练数据生成方法、系统、设备及存储介质技术方案

技术编号:31740032 阅读:11 留言:0更新日期:2022-01-05 16:18
本发明专利技术公开了任务操作指令映射模型训练数据生成方法、系统、设备及存储介质,所述生成方法包括获取基于实际任务编写的若干任务描述脚本,将所述若干任务描述脚本随机组合成若干任务描述脚本组;执行所述任务描述脚本组,获取所述任务描述脚本组所对应的任务执行时间戳数据、执行过程中的事件日志数据和屏幕录屏数据;将一组任务描述脚本组、事件日志数据和屏幕录屏数据作为训练样本,构建训练数据集。本发明专利技术提供了一种半自动化生成操作指令训练数据的生成方法,只需要少量任务描述脚本中就可以生成大量、多种模态的训练数据,极大地减少训练模型的成本。减少训练模型的成本。减少训练模型的成本。

【技术实现步骤摘要】
任务操作指令映射模型训练数据生成方法、系统、设备及存储介质


[0001]本专利技术涉及任务操作指令映射模型训练数据生成方法、系统、设备及存储介质,属于模型训练


技术介绍

[0002]在IT系统中存在大量的日志,它们记录了在实际场景中业务流程执行的过程;要从日志中还原出实际的业务流程,一般采用成熟的流程挖掘算法,而流程挖掘算法需要使用规范的日志,才能够表示出业务流程的真实情况,方便用户对业务流程做统计、分析,以及流程优化,提高业务流程的效率;实际的日志数据往往是混乱的,充满了各种错误和噪音,直接使用这样的日志,构建的业务流程图也会充满错误,使得后续的处理也变得不可靠。
[0003]要处理日志中噪音和错误,一般采用基于规则的方式和基于机器学习的方式;基于规则的方式需要编写大量包含业务逻辑的代码,工作量大而且不够灵活,不能随着业务的发展变化而变化;基于机器学习的方式,工作量相对较小,但是需要大量的标注数据;由于日常工作中计算机操作的范围很大,且数据量也很大,无论是采集数据,还是标注数据都是成本巨大,难以执行。

技术实现思路

[0004]本专利技术的目的在于克服现有技术中的不足,提供任务操作指令映射模型训练数据生成方法、系统、设备及存储介质。
[0005]第一方面,本专利技术提供了一种任务操作指令映射模型训练数据生成方法,包括:获取基于实际任务编写的若干任务描述脚本,将所述若干任务描述脚本随机组合成若干任务描述脚本组;执行所述任务描述脚本组,获取所述任务描述脚本组所对应的任务执行时间戳数据、执行过程中的事件日志数据和屏幕录屏数据;将一组任务描述脚本组、事件日志数据和屏幕录屏数据作为训练样本,构建训练数据集。
[0006]进一步的,所述任务描述脚本组包含多个任务描述脚本,所述多个任务描述脚本随机混合执行获得混合了多个任务的操作指令序列。
[0007]进一步的,所述任务描述脚本包括有明确目标的任务脚本和通用随机任务脚本。
[0008]进一步的,所述任务执行时间戳数据包括所述操作指令序列中每条操作指令的开始和结束时间。
[0009]进一步的,所述操作指令序列、事件日志数据和屏幕录屏数据通过任务执行时间戳数据进行关联。
[0010]第二方面,本专利技术还提供了一种任务操作指令映射模型训练数据生成系统,包括:
任务描述脚本组编写模块:用于编写任务描述脚本组,基于实际任务编写若干任务描述脚本,将若干任务描述脚本随机组合成若干任务描述脚本组;任务描述脚本组执行模块:用于执行任务描述脚本组;事件日志数据获取模块:用于获取任务描述脚本组执行过程中的事件日志数据;屏幕录屏数据获取模块:用于获取任务描述脚本组执行过程中的屏幕录屏数据;时间戳数据获取模块:用于获取任务描述脚本组执行过程中的时间戳数据;训练数据生成模块:用于构建训练数据,将一组任务描述脚本组、事件日志数据和屏幕录屏数据作为训练样本,构建训练数据集。
[0011]进一步的,所述任务描述脚本组包含多个任务描述脚本,所述多个任务描述脚本随机混合执行获得混合了多个任务的操作指令序列。
[0012]第三方面,本专利技术还提供了一种设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面任一项所述的训练数据生成方法的步骤。
[0013]第四方面,本专利技术还提供了一种存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述的训练数据生成方法的步骤。
[0014]与现有技术相比,本专利技术的有益效果为:本专利技术将用户编写的任务描述脚本,随机组合成任务描述脚本组,以多种不同的具体操作来执行,生成了大量目标相同但具体内容不同的事件日志,可以方便地模拟不同人、不同环境下用户执行同一个任务时存在的不同变形;且由于执行过程中每一个时刻只执行一个操作指令,对应的事件日志、录屏数据可以根据时间戳关联起来,作为训练数据,节省了人工标注工作量;且由于操作指令、事件日志是文本数据,录屏数据是视频,两两联合起来使用,可以用于多种形式模型的训练,包括视频与文本多模态模型。
附图说明
[0015]图1是本专利技术实施例任务操作指令映射模型训练数据生成方法流程图。
具体实施方式
[0016]下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。
[0017]实施例1:如图1所示,一种任务操作指令映射模型训练数据生成方法,包括:使用robotframework基于实际任务编写若干任务描述脚本,任务描述脚本包括有明确目标的任务脚本和通用随机任务脚本;有明确目标的任务,如:1.登录示例业务系统;2.进入上报故障页面;3.填写故障描述;4.提交数据;
通用随机任务的任务,如:1.打开163网站;2.随机点击一个链接,关闭;3.再随机点击,再关闭。
[0018]任务描述脚本可以使用任意的工具来编写,只要是文本形式表示就行,包括普通文本、XML等形式,任务描述脚本可以是结构化的表示,也可以是非结构化的表示。任务描述脚本中所有的操作指令顺序执行,若是有需要循环、跳转操作,需要将它们封装在一个操作指令内。
[0019]测试任务描述脚本,确保它们能够按照预期的方式执行并获得预期的结果。
[0020]更改执行任务描述脚本的方法,为任务描述脚本中的操作指令增加多种实现方式和随机数据。
[0021]任务描述脚本中的操作指令的多种实现方式,如:“登录示例业务系统”可以包含多种实现方式,通过点击浏览器图标,再在地址栏中输入网站地址,或者在windows运行中输入“chrome.exe",回车,再在地址栏中输入网站地址。
[0022]任务描述脚本中的操作指令的随机数据是指在不影响最终结果的情况下,加入一个变化因素;比如输入浏览器地址时,可以输入几个错误的字符,然后再删除这些字符,按照这样的方法执行任务描述脚本,每次执行一个任务描述脚本的结果仍然是与原来一致的,但具体的操作是有变化的,如键盘鼠标操作具体流程不同,对应的事件日志是不完全一样的。
[0023]将若干任务描述脚本随机组合成若干任务描述脚本组,任务描述脚本组可以包含一个或多个任务描述脚本,从有明确目标的任务描述脚本集合中随机选择N1个,从通用随机任务脚本集合中随机选择N2个。这里N1和N2最小为1个,N2要远小于N1,以保证噪音占比较少,不致于影响到主要任务的识别;在选择N1+N2个任务脚本之后,每个脚本中的操作指令转换为一个操作列队,每次任意选择一个操作队列,取出队列中第一个操作指令,直到所有的队列都为空,由此获得混合了多个任务的操作指令序列。
[0024]执行上述操作指令序列,获取所对应的任务执行时间戳数据、执行过程中的事件日志数据和屏幕录屏数据,记录每个操作指令的开始和结束时间;同时,使用事件录制器来记录事件日志,使用屏幕录制器来录制屏幕,事件录制器需要记录当前的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种任务操作指令映射模型训练数据生成方法,其特征在于,包括:获取基于实际任务编写的若干任务描述脚本,将所述若干任务描述脚本随机组合成若干任务描述脚本组;执行所述任务描述脚本组,获取所述任务描述脚本组所对应的任务执行时间戳数据、执行过程中的事件日志数据和屏幕录屏数据;将一组任务描述脚本组、事件日志数据和屏幕录屏数据作为训练样本,构建训练数据集。2.根据权利要求1所述的任务操作指令映射模型训练数据生成方法,其特征在于,所述任务描述脚本组包含多个任务描述脚本,所述多个任务描述脚本随机混合执行获得混合了多个任务的操作指令序列。3.根据权利要求2所述的任务操作指令映射模型训练数据生成方法,其特征在于,所述任务描述脚本包括有明确目标的任务脚本和通用随机任务脚本。4.根据权利要求2所述的任务操作指令映射模型训练数据生成方法,其特征在于,所述任务执行时间戳数据包括所述操作指令序列中每条操作指令的开始和结束时间。5.根据权利要求2所述的任务操作指令映射模型训练数据生成方法,其特征在于,所述操作指令序列、事件日志数据和屏幕录屏数据通过任务执行时间戳数据进行关联。6.一种任务操作指令映射模型训练数据生成系统,其特征在于,包括:任务描述脚本组编写模块:用于编...

【专利技术属性】
技术研发人员:唐琦松林平吴鑫靳志业
申请(专利权)人:上海艺赛旗软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1