System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种自动化后台网页数据提取方法及其系统技术方案_技高网

一种自动化后台网页数据提取方法及其系统技术方案

技术编号:40246969 阅读:6 留言:0更新日期:2024-02-02 22:42
本发明专利技术提出了一种自动化后台网页数据提取方法及其系统,该方法包括如下步骤:响应于打开目标模块网页,对目标网页进行识别并生成数据固定的策略;对生成的固定策略根据需求进行修改或配置,执行修改或配置完成后的所述固定策略;根据所述固定策略提取页面数据,获得所需结果。通过将自动化流程分解成策略,支持用户通过交互的方式高效自定义提取数据,降低了网页数据提取的技术门槛,加快执法人员工作效率。

【技术实现步骤摘要】

本专利技术属于网页开发,具体涉及一种自动化后台网页数据提取方法及其系统


技术介绍

1、随着互联网的普及,大量信息以网页的形式存在。网页可分类为前台和后台。前台是指网站的用户界面部分,它是用户与网站进行交互和获取信息的界面;而后台是指网站的管理界面和功能部分,它用于处理和管理网站的核心功能、数据存储和业务逻辑。

2、在涉嫌违法的网站中,后台提供的用户、资金、订单、统计等管理功能直观地反映了利益链的走向,因此成为案件分析、定量和取证的重要数据源。目前针对此类网页的自动化提取技术尚不成熟,手动提取和整理数据是一项耗时且繁琐的任务。

3、现有的,由于后台网页开发技术不断更新,目前还没有统一的提取方案,市面上存在以下几点不足:

4、可以针对性的脚本适配开发,但无法普适性、技术门槛较高、需要编码耗时;

5、可以采用拟人化的自动化提取,比如通过点击翻页按钮方式,但可能忽视了其他更为高效的方案。

6、有鉴于此,提出一种自动化后台网页数据提取方法及其系统是非常具有意义的。


技术实现思路

1、为了解决现有后台网页开发中脚本适配开发无法普适性、技术门槛较高、需要编码耗时,拟人化的自动化提取效率低等问题,本专利技术提供一种自动化后台网页数据提取方法及其系统,以解决上述存在的技术缺陷问题。

2、第一方面,本专利技术提出了一种自动化后台网页数据提取方法,该方法包括如下步骤:

3、响应于打开目标模块网页,对目标网页进行识别并生成数据固定的策略;

4、对生成的固定策略根据需求进行修改或配置,执行修改或配置完成后的所述固定策略;以及

5、根据所述固定策略提取页面数据,获得所需结果。

6、优选的,对目标网页进行识别并生成数据固定的策略包括:

7、准备阶段,利用dom遍历所有元素节点并提取预设的元素对象,判断该对象是否是翻页按钮,若是则将该元素对象加入翻页按钮列表,否则是否提取到元素链接,若是则将该要素对象加入链接列表,以得到翻页按钮列表和链接列表;

8、分析过滤阶段,对链接分组并进行初步过滤,解析参数并提取特征;

9、生成固定策略,通过得到的页面翻页按钮以及直达链接获得策略列表,所述策略列表通过ui输出给用户选择并支持修改,用户可修改指令和执行参。

10、进一步优选的,生成固定策略具体包括:

11、首先先生成空的策略列表;

12、判断是否有直达页面链接,若有则生成加载链接方式固定策略,将配置策略执行参数设置为后台固定模式,并加入策略列表;

13、否则判断是否有翻页按钮,若有则生成点击翻页按钮方式的固定策略,将配置策略执行参数设置为前台固定模式,并加入策略列表。

14、进一步优选的,分析过滤阶段,对链接分组并进行初步过滤具体包括:

15、先按顺序逐个遍历网页采集源数据,对每个链接拆分成路径和参数两个部分,并将同一路径下的路径和参数归类为同一个组别;

16、统计加入同类别时相邻项连续的个数,利用翻页页面链接具有相邻性排除不符合的组别。

17、进一步优选的,分析过滤阶段,解析参数并提取特征具体包括:

18、在获得n个以相同路径的分组时,判断若n>0,则需要进一步处理:如pag=1,page=2,…,page=n,说明页面范围是从1~n,且步长是1,步长指的是相邻值的差值,当值包含了数值和字符串,如page=1.html,则应该过滤掉“.html”,保留成page=1再比较;

19、将参数解析得到一张表,通过分析表内各个参数值的规律,并统计规律的个数:如page=8,page=7,…page=2满足规律,而且有7个,则预判高概率是页面直达链接,而且参数是page、步长为1。

20、进一步优选的,所述固定策略由一组可扩展指令集、指令执行时序以及执行参数组成:

21、指令表示自动化取证流程的片段子操作,包含多个可配置的控制条件参数,包括点击翻页、加载链接和提取网页数据,点击翻页指令可配置翻页数量;

22、指令执行时序表示规定多指令间执行时序,个别指令支持循环,如点击翻页支持循环;而循环指令支持嵌套循环,主要支持对于子级页面的提取;同时支持自定义交互调整时序;

23、执行参数表示执行策略时可配置的环境或者业务参数,如选择前台或者后台执行、是否截图。

24、进一步优选的,执行参数设置为前台固定模式或后台固定模式指的是是否渲染浏览器展示固定过程,后台属于静默隐藏固定。

25、第二方面,本专利技术实施例还提供一种自动化后台网页数据提取系统,包括:

26、识别模块,配置用于打开目标模块网页,对目标网页进行识别;

27、固定策略模块,配置用于生成数据固定的策略;

28、配置模块,配置用于对生成的固定策略根据需求进行修改或配置;

29、执行模块,配置用于执行修改或配置完成后的所述固定策略,根据所述固定策略提取页面数据,获得所需结果。

30、第三方面,本专利技术实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

31、第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

32、与现有技术相比,本专利技术的有益成果在于:

33、(1)本专利技术了一种自动化后台网页数据提取方法,将自动化流程分解成策略,支持用户通过交互的方式高效自定义提取数据,降低了网页数据提取的技术门槛,加快执法人员工作效率。

34、(2)本专利技术的技术方案支持交互性的配置化提取,无需编码,降低使用者门槛,统一并择优“点击翻页”和“加载链接”提取方式,确保对页面的高效提取,针对模块功能自动识别生成可选择的固定策略。用户只要简单配置即可提交固定获取所需的数据。

本文档来自技高网...

【技术保护点】

1.一种自动化后台网页数据提取方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的自动化后台网页数据提取方法,其特征在于,对目标网页进行识别并生成数据固定的策略包括:

3.根据权利要求2所述的自动化后台网页数据提取方法,其特征在于,生成固定策略具体包括:

4.根据权利要求3所述的自动化后台网页数据提取方法,其特征在于,分析过滤阶段,对链接分组并进行初步过滤具体包括:

5.根据权利要求4所述的自动化后台网页数据提取方法,其特征在于,分析过滤阶段,解析参数并提取特征具体包括:

6.根据权利要求3所述的自动化后台网页数据提取方法,其特征在于,所述固定策略由一组可扩展指令集、指令执行时序以及执行参数组成:

7.根据权利要求6所述的自动化后台网页数据提取方法,其特征在于,执行参数设置为前台固定模式或后台固定模式指的是是否渲染浏览器展示固定过程,后台属于静默隐藏固定。

8.一种自动化后台网页数据提取系统,其特征在于,包括:

9.一种电子设备,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一所述的方法。

...

【技术特征摘要】

1.一种自动化后台网页数据提取方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的自动化后台网页数据提取方法,其特征在于,对目标网页进行识别并生成数据固定的策略包括:

3.根据权利要求2所述的自动化后台网页数据提取方法,其特征在于,生成固定策略具体包括:

4.根据权利要求3所述的自动化后台网页数据提取方法,其特征在于,分析过滤阶段,对链接分组并进行初步过滤具体包括:

5.根据权利要求4所述的自动化后台网页数据提取方法,其特征在于,分析过滤阶段,解析参数并提取特征具体包括:

<...

【专利技术属性】
技术研发人员:李栋梁郭弘孙奕沈长达林志玮
申请(专利权)人:厦门市美亚柏科信息安全研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1