System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种用于网页导航任务训练的数据集生成方法、装置、设备及存储介质。
技术介绍
1、网页导航任务是指让web代理(web agent)完成在网页上的导航和操作。典型的任务包括根据给定关键词在搜索引擎上搜索信息、在社交媒体或论坛网站上进行指定的操作、在结果网页中浏览和提取相关信息、按照要求填写并提交在线表格、在网页应用中进行注册、登录等操作、在购物网站上查找商品并加入购物车等。
2、完成这些任务需要web agent能够像人类一样理解网页内容和结构,分析页面元素,并进行模拟鼠标点击、文本输入等交互操作。与此同时,web agent还需要遵循任务要求,只提取相关信息,并保护用户隐私。总的来说,网页导航任务考察了web agent在网页环境中的理解和交互能力,专注于在网页环境中完成自动化操作,是ai实际应用的一个重要方向。它通过分析网页的dom结构,定位页面元素,并进行点击、输入、提交表单等动作。
3、在进行网页导航任务训练时,需要用到数据集,数据集中提供了大量训练样本,可以快速迭代模型,对web agent进行训练。因此一个高质量的数据集对于在进行网页导航任务训练时具有重要意义。
技术实现思路
1、针对上述问题,本申请提供了一种用于网页导航任务训练的数据集生成方法,包括以下内容:
2、第一方面,本申请提供了一种用于网页导航任务训练的数据集生成方法,该方法包括:
3、构建网页集,所述网页集中包括外部网页和内部网页,所
4、基于所述网页集中的网页,构造自然语言指令,所述自然语言指令代表用户意图;
5、基于所述自然语言指令在所述网页集中的网页上进行操作,记录完成网页导航任务时执行的原子操作轨迹。
6、可选的,所述构建网页集之后,所述方法还包括:
7、对所述外部网页进行处理,得到外部真实网页和外部仿真网页。
8、可选的,所述对所述外部网页进行处理包括:
9、在所述网页集中选取部分外部网页,作为第一外部网页集,所述第一外部网页集中的网页为外部仿真网页;
10、基于目标网页导航任务,对所述第一外部网页集中网页节点进行删除,保留与所述目标网页导航任务相关的网页元素和结构,得到外部仿真网页集;
11、在所述网页集中选取剩余外部网页,作为第二外部网页集,所述第二外部网页集中的网页为外部真实网页;
12、在所述外部真实网页中获取超文本标记语言文件、网页截图和辅助功能树。
13、可选的,所述构建网页集之后,所述方法还包括:
14、在所述内部网页中获取超文本标记语言文件、网页截图和辅助功能树。
15、可选的,所述基于所述网页集中的网页,构造自然语言指令包括:
16、获取网页中的可操作节点,将所述可操作节点填入网页模版中,生成低级语义指令;
17、利用大模型对所述低级语义指令进行优化得到高级语义指令。
18、可选的,所述记录完成网页导航任务时执行的原子操作轨迹包括:
19、利用相关工具跟踪录制每一步操作对应的网页信息和截图,以及每一步与网页进行交互时的操作轨迹。
20、第二方面,本申请提供了一种用于网页导航任务训练的数据集生成装置,该装置包括:
21、第一构建单元,用于构建网页集,所述网页集中包括外部网页和内部网页,所述外部网页是指在外部网络环境下进行访问的网页,所述内部网页是指在内部网络环境下进行访问的网页;
22、第二构建单元,用于基于所述网页集中的网页,构造自然语言指令,所述自然语言指令代表用户意图;
23、操作单元,用于基于所述自然语言指令在所述网页集中的网页上进行操作,记录完成网页导航任务时执行的原子操作轨迹。
24、可选的,所述第一构建单元还用于:
25、对所述外部网页进行处理,得到外部真实网页和外部仿真网页。
26、可选的,所述第一构建单元具体用于:
27、在所述网页集中选取部分外部网页,作为第一外部网页集,所述第一外部网页集中的网页为外部仿真网页;
28、基于目标网页导航任务,对所述第一外部网页集中网页节点进行删除,保留与所述目标网页导航任务相关的网页元素和结构,得到外部仿真网页集;
29、在所述网页集中选取剩余外部网页,作为第二外部网页集,所述第二外部网页集中的网页为外部真实网页;
30、在所述外部真实网页中获取超文本标记语言文件、网页截图和辅助功能树。
31、可选的,所述装置还包括:
32、获取单元,用于在所述内部网页中获取超文本标记语言文件、网页截图和辅助功能树。
33、可选的,所述第二构建单元具体用于:
34、获取网页中的可操作节点,将所述可操作节点填入网页模版中,生成低级语义指令;
35、利用大模型对所述低级语义指令进行优化得到高级语义指令。
36、可选的,所述操作单元具体用于:
37、利用相关工具跟踪录制每一步操作对应的网页信息和截图,以及每一步与网页进行交互时的操作轨迹。
38、第三方面,本申请提供了一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行前述第一方面任一实现方式中介绍的用于网页导航任务训练的数据集生成方法。
39、第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一实现方式中介绍的用于网页导航任务训练的数据集生成方法。
40、本申请提供了一种用于网页导航任务训练的数据集生成方法。在执行所述方法时,先构建网页集,其中网页集中包括能够在外部网络环境下进行访问的外部网页和只能通过内部网络进行访问的内部网页,然后基于网页集中的内部网页和外部网页中的信息生成能够代表用户指令的自然语言指令,最后基于所述自然语言指令执行网页导航任务,并记录完成所述网页导航任务时的原子操作轨迹。如此得到了用于网页导航任务训练时的数据集,该数据集中包括网页集、自然语言指令和原子操作轨迹,根据本申请中的中文数据集用于模型训练能够使得模型拥有更强的泛化能力,另外由于自然语言指令的多样性,可模拟真实用户交互场景,优化用户体验。
本文档来自技高网...【技术保护点】
1.一种用于网页导航任务训练的数据集生成方法,其特征在于,所述数据集包括网页集,自然语言指令和原子操作轨迹,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述构建网页集之后,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述外部网页进行处理包括:
4.根据权利要求1所述的方法,其特征在于,所述构建网页集之后,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述网页集中的网页,构造自然语言指令包括:
6.根据权利要求1所述的方法,其特征在于,所述记录完成网页导航任务时执行的原子操作轨迹包括:
7.一种用于网页导航任务训练的数据集生成装置,其特征在于,所述数据集包括网页集,自然语言指令和原子操作轨迹,所述装置包括:
8.根据权利要求7所述的装置,其特征在于,所述第一构建单元还用于:
9.一种计算设备,其特征在于,所述计算设备包括:存储器、处理器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程
...【技术特征摘要】
1.一种用于网页导航任务训练的数据集生成方法,其特征在于,所述数据集包括网页集,自然语言指令和原子操作轨迹,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述构建网页集之后,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述外部网页进行处理包括:
4.根据权利要求1所述的方法,其特征在于,所述构建网页集之后,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述网页集中的网页,构造自然语言指令包括:
6.根据权利要求1...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。