System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于人工智能的不规则数据提取方法及系统技术方案_技高网

基于人工智能的不规则数据提取方法及系统技术方案

技术编号:40808481 阅读:2 留言:0更新日期:2024-03-28 19:31
本申请涉及大数据领域,尤其涉及一种基于人工智能的不规则数据提取方法及系统,包括:对网页的静态部分和动态部分采用不同的提取规则进行网页数据提取;将从网页的静态部分提取的网页数据形成静态数据集,将从网页的动态部分提取的网页数据形成动态数据集;依据静态数据集和动态数据集得到网页的融合网页数据,依据网页的融合网页数据进行该网页的监控。本申请可以降低网页数据的提取难度。

【技术实现步骤摘要】

本申请涉及大数据领域,尤其涉及一种基于人工智能的不规则数据提取方法及系统


技术介绍

1、随着计算机网络和人工智能的发展,网页的种类和网页的数量都呈爆发式增长,网页产生的数据也呈爆发式增长。为了监控网页的状态,需要提取网页数据,而大量的网页数据增加了网页数据提取的难度。并且,大量的网页数据中有部分规则的网页数据,还有部分部规则的网页数据,而不规则的网页数据更加增加了网页数据提取的难度。

2、因此,如何降低网页数据的提取难度,是本领域技术人员目前急需解决的技术问题。


技术实现思路

1、本申请提供了一种基于人工智能的不规则数据提取方法,以降低网页数据的提取难度。

2、为解决上述技术问题,本申请提供如下技术方案:

3、一种基于人工智能的不规则数据提取方法,包括如下步骤:步骤s110、对网页的静态部分和动态部分采用不同的提取规则进行网页数据提取;步骤s120、将从网页的静态部分提取的网页数据形成静态数据集,将从网页的动态部分提取的网页数据形成动态数据集;步骤s130、依据静态数据集和动态数据集得到网页的融合网页数据,依据网页的融合网页数据进行该网页的监控。

4、如上所述的人工智能的不规则数据提取方法,其中,优选的是,网页的静态部分的网页数据提取规则是在提取周期内进行1次网页数据提取,网页的动态部分的网页数据提取规则是在提取周期内进行n次网页数据提取。

5、如上所述的基于人工智能的不规则数据提取方法,其中,优选的是,依据提取周期、网页的动态部分的语言类型、网页的动态部分所需的文件类型和网页的动态部分的类型,计算在提取周期内对网页的动态部分进行网页数据提取的次数n。

6、如上所述的基于人工智能的不规则数据提取方法,其中,优选的是,在提取得到网页的动态部分的网页数据后,将网页的动态部分的所有网页数据进行分类,并且按照分类类别将网页的动态部分的所有网页数据集合在一起形成动态数据集。

7、如上所述的基于人工智能的不规则数据提取方法,其中,优选的是,在从网页的动态部分提取得到网页数据后,提取每个网页数据的种类特征;据提取得到的所有种类特征确定每个种类特征对应的分类类别值;将种类特征对应的分类类别值与后台服务器中预存的所有标准分类类别值进行对比,并且将与网页数据的分类类别值最接近的标准分类类别值所对应的分类类别作为该网页数据的分类类别。

8、一种基于人工智能的不规则数据提取系统,包括:网页数据提取单元、数据集形成单元、网页数据融合单元和网页监控单元;网页数据提取单元对网页的静态部分和动态部分采用不同的提取规则进行网页数据提取;数据集形成单元将从网页的静态部分提取的网页数据形成静态数据集,将从网页的动态部分提取的网页数据形成动态数据集;网页数据融合单元依据静态数据集和动态数据集得到网页的融合网页数据,网页监控单元依据网页的融合网页数据进行该网页的监控。

9、如上所述的人工智能的不规则数据提取系统,其中,优选的是,网页的静态部分的网页数据提取规则是在提取周期内进行1次网页数据提取,网页的动态部分的网页数据提取规则是在提取周期内进行n次网页数据提取。

10、如上所述的基于人工智能的不规则数据提取系统,其中,优选的是,依据提取周期、网页的动态部分的语言类型、网页的动态部分所需的文件类型和网页的动态部分的类型,计算在提取周期内对网页的动态部分进行网页数据提取的次数n。

11、如上所述的基于人工智能的不规则数据提取系统,其中,优选的是,在提取得到网页的动态部分的网页数据后,将网页的动态部分的所有网页数据进行分类,并且按照分类类别将网页的动态部分的所有网页数据集合在一起形成动态数据集。

12、如上所述的基于人工智能的不规则数据提取系统,其中,优选的是,在从网页的动态部分提取得到网页数据后,提取每个网页数据的种类特征;依据提取得到的所有种类特征确定每个种类特征对应的分类类别值;将种类特征对应的分类类别值与后台服务器中预存的所有标准分类类别值进行对比,并且将与网页数据的分类类别值最接近的标准分类类别值所对应的分类类别作为该网页数据的分类类别。

13、相对上述
技术介绍
,由于本申请要根据网页的每个动态部分确定该动态部分的网页数据提取次数,因此合理安排了网页数据的提取,在保证提取数量的基础上可以减少提取次数,降低了提取难度;另外,本申请中对于用于进行监控的网页数据,采用的是动态部分的网页数据和静态部分的网页数据融合后的融合网页数据,并且这里动态部分的网页数据是按照类型进行分类后的网页数据,这样就可以将不规则的网页数据分类至预定数量的类别中,减少了网页数据的类别数量,降低了对不规则数据的提取计算难度。

本文档来自技高网...

【技术保护点】

1.一种基于人工智能的不规则数据提取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的人工智能的不规则数据提取方法,其特征在于,网页的静态部分的网页数据提取规则是在提取周期内进行1次网页数据提取,网页的动态部分的网页数据提取规则是在提取周期内进行N次网页数据提取。

3.根据权利要求2所述的基于人工智能的不规则数据提取方法,其特征在于,依据提取周期、网页的动态部分的语言类型、网页的动态部分所需的文件类型和网页的动态部分的类型,计算在提取周期内对网页的动态部分进行网页数据提取的次数N。

4.根据权利要求1至3任一项所述的基于人工智能的不规则数据提取方法,其特征在于,在提取得到网页的动态部分的网页数据后,将网页的动态部分的所有网页数据进行分类,并且按照分类类别将网页的动态部分的所有网页数据集合在一起形成动态数据集。

5.根据权利要求4所述的基于人工智能的不规则数据提取方法,其特征在于,在从网页的动态部分提取得到网页数据后,提取每个网页数据的种类特征;

6.一种基于人工智能的不规则数据提取系统,其特征在于,包括:网页数据提取单元、数据集形成单元、网页数据融合单元和网页监控单元;

7.根据权利要求6所述的人工智能的不规则数据提取系统,其特征在于,网页的静态部分的网页数据提取规则是在提取周期内进行1次网页数据提取,网页的动态部分的网页数据提取规则是在提取周期内进行N次网页数据提取。

8.根据权利要求7所述的基于人工智能的不规则数据提取系统,其特征在于,依据提取周期、网页的动态部分的语言类型、网页的动态部分所需的文件类型和网页的动态部分的类型,计算在提取周期内对网页的动态部分进行网页数据提取的次数N。

9.根据权利要求6至8任一项所述的基于人工智能的不规则数据提取系统,其特征在于,在提取得到网页的动态部分的网页数据后,将网页的动态部分的所有网页数据进行分类,并且按照分类类别将网页的动态部分的所有网页数据集合在一起形成动态数据集。

10.根据权利要求9所述的基于人工智能的不规则数据提取系统,其特征在于,在从网页的动态部分提取得到网页数据后,提取每个网页数据的种类特征;

...

【技术特征摘要】

1.一种基于人工智能的不规则数据提取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的人工智能的不规则数据提取方法,其特征在于,网页的静态部分的网页数据提取规则是在提取周期内进行1次网页数据提取,网页的动态部分的网页数据提取规则是在提取周期内进行n次网页数据提取。

3.根据权利要求2所述的基于人工智能的不规则数据提取方法,其特征在于,依据提取周期、网页的动态部分的语言类型、网页的动态部分所需的文件类型和网页的动态部分的类型,计算在提取周期内对网页的动态部分进行网页数据提取的次数n。

4.根据权利要求1至3任一项所述的基于人工智能的不规则数据提取方法,其特征在于,在提取得到网页的动态部分的网页数据后,将网页的动态部分的所有网页数据进行分类,并且按照分类类别将网页的动态部分的所有网页数据集合在一起形成动态数据集。

5.根据权利要求4所述的基于人工智能的不规则数据提取方法,其特征在于,在从网页的动态部分提取得到网页数据后,提取每个网页数据的种类特征;

6.一种基于人工智能的不...

【专利技术属性】
技术研发人员:马遥
申请(专利权)人:广州敏行数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1