网页表格数据提取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:30551075 阅读:21 留言:0更新日期:2021-10-30 13:31
本申请涉及一种网页表格数据提取方法、装置、计算机设备和存储介质。所述方法包括:配置数据提取格式,通过数据提取格式设置数据提取策略,数据提取格式包括网页表格的字段名以及网页表格的字段名对应的行字段标识和行字段中的列字段标识;根据网页表格标签中的行列属性和与行列属性对应的数据构建网页数据二维数组,网页数据二维数组中包括第一维度的数组和第二维度的数组;逐维度且逐项提取网页数据二维数组中可见字符并通过数据提取策略进行字符匹配,得到网页表格的数据提取结果。采用本方法既能够减少网页解析代码书写,提高工作效率,又能比较方便地校验数据提取质量,并且当需要提取的HTML竖表较为复杂时,数据提取精准度较高。准度较高。准度较高。

【技术实现步骤摘要】
网页表格数据提取方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种网页表格数据提取方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着互联网技术的发展,网页应用平台中,将所要表达的信息按照相关规范展示到平台界面中会用到HTML的相关技术,而HTML竖表是比较常见的网页页面数据展示形式,当需要提取HTML竖表中数据时就需要对HTML竖表数据进行解析,目前常用的方式是运用python语言及其相关依赖包对网页中的HTML竖表信息进行数据解析。
[0003]然而,目前通过python语言进行数据解析时,由于HTML竖表具有较高的多样性和复杂性,以及同一个网站使用的HTML竖表的不确定性,传统依据字符判断条件对HTML竖表进行遍历的方式容易造成数据提取不完整甚至提取成错误数据的结果,对数据质量影响较大。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够准确提取HTML竖表数据的网页表格数据提取方法、装置、计算机设备和存储介质。
[0005]一种网页表格数据提取方法,所述方法包括以下步骤:
[0006]配置数据提取格式,通过所述数据提取格式设置数据提取策略,所述数据提取格式包括网页表格的字段名以及所述网页表格的字段名对应的行字段标识和行字段中的列字段标识;
[0007]根据网页表格中行列属性和与所述行列属性对应的数据构建网页数据二维数组,所述网页数据二维数组中包括第一维度的数组和第二维度的数组;
[0008]逐维度且逐项提取所述网页数据二维数组中可见字符并通过所述数据提取策略进行字符匹配,得到所述网页表格的数据提取结果。
[0009]在其中一个实施例中,所述根据网页表格中行列属性和与所述行列属性对应的数据构建网页数据二维数组包括:
[0010]根据网页表格中行列属性构建空白二维数组;
[0011]将与所述行列属性对应的数据逐行且逐项填入所述空白二维数组中,得到网页数据二维数组。
[0012]在其中一个实施例中,所述根据网页表格中行列属性构建空白二维数组包括:
[0013]遍历所述网页表格,筛选所述网页表格中含有行列属性的单元格;
[0014]将所述含有行列属性的单元格进行累加计算,得到行列值;
[0015]根据所述行列值构建空白二维数组。
[0016]在其中一个实施例中,所述通过所述数据提取格式设置数据提取策略包括:
[0017]通过字段标识符存储至少一项所述网页表格的字段名;
[0018]通过行字段标识符标识所述网页表格的行字段;
[0019]通过列字段标识符标识所述行字段中的列字段;
[0020]根据所述字段标识符、行字段标识符和列字段标识符设置数据提取策略。
[0021]在其中一个实施例中,所述逐维度且逐项提取所述网页数据二维数组中可见字符并通过所述数据提取策略进行字符匹配,得到所述网页表格的数据提取结果包括:
[0022]将所述第一维度的数组中的元素逐项获取所述可见字符并进行组合,得到网页表格行文本字符数据;
[0023]将所述网页表格行文本字符数据和所述第二维度的数组通过所述数据提取策略进行字符匹配和字段组装,得到所述网页表格的数据提取结果。
[0024]在其中一个实施例中,所述将所述网页表格行文本字符数据通过所述数据提取策略进行字符匹配和字段组装得到所述网页表格的数据提取结果包括:
[0025]将所述网页表格行文本字符数据与所述行字段标识符标识的所述网页表格的行字段进行字符串匹配;
[0026]创建与所述行字段中的列字段长度对应的下标数组;
[0027]将所述第二维度的数组中的各元素逐项与所述行字段中的列字段进行字符串匹配,得到与所述行字段中的列字段匹配的项的下标值;
[0028]将与所述行字段中的列字段匹配的项的下标值存入所述下标数组;
[0029]获取所述下标数组中下标值并与所述第二维度的数组中的各元素进行匹配得到与所述行字段中的列字段匹配的项;
[0030]将字段标识符存储至少一项所述网页表格的字段名与所述行字段中的列字段匹配的项进行字段组装,输出所述网页表格中各字段的值。
[0031]在其中一个实施例中,所述行列属性包括:colspan和/或rowspan。
[0032]一种网页表格数据提取装置,所述装置包括:
[0033]配置模块,用于配置数据提取格式,通过所述数据提取格式设置数据提取策略,所述数据提取格式包括网页表格的字段名以及所述网页表格的字段名对应的行字段标识和所述行字段中的列字段标识;
[0034]构建数组模块,用于根据网页表格中行列属性和与所述行列属性对应的数据构建网页数据二维数组,所述网页数据二维数组中包括第一维度的数组和第二维度的数组;
[0035]数据输出模块,用于逐维度且逐项提取所述网页数据二维数组中可见字符并通过所述数据提取策略进行字符匹配,得到所述网页表格的数据提取结果。
[0036]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述的方法的步骤。
[0037]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法的步骤。
[0038]上述网页表格数据提取方法、装置、计算机设备和存储介质,通过数据提取格式和数据提取策略能够标识网页表格中每一行的数据,能够提高数据提取的精准度,能够将网页表格中数据准确地提取出来并且存储在网页数据二维数组中,逐维度且逐项的提取网页二维数组中的数据并进行字符匹配,既能够减少传统判断条件对HTML竖表进行遍历造成数据提取错误的结果,又能够当需要提取的HTML竖表较为复杂时,因为是使用提取规则并通
过提取规则获取字段配置再通过数据提取策略进行匹配得到最终结果,所以使得数据提取精准度较高,不会出现数据提取不完整甚至数据提取错误的问题。
附图说明
[0039]图1为一个实施例中网页表格数据提取方法的应用环境图;
[0040]图2为一个实施例中网页表格数据提取方法的流程示意图;
[0041]图3为一个实施例中S204步骤的流程示意图;
[0042]图4为一个实施例中S302步骤的流程示意图;
[0043]图5为一个实施例中S302步骤的具体流程示意图;
[0044]图6为一个实施例中S202步骤的流程示意图;
[0045]图7为一个实施例中网页竖表示意图;
[0046]图8为一个实施例中S604步骤的流程示意图;
[0047]图9为一个实施例中网页表格数据提取装置的结构框图;
[0048]图10为一个实施例中计算机设备的内部结构图。
具体实施方式
[0049]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页表格数据提取方法,其特征在于,所述方法包括以下步骤:配置数据提取格式,通过所述数据提取格式设置数据提取策略,所述数据提取格式包括网页表格的字段名以及所述网页表格的字段名对应的行字段标识和行字段中的列字段标识;根据网页表格标签中的行列属性和与所述行列属性对应的数据构建网页数据二维数组,所述网页数据二维数组中包括第一维度的数组和第二维度的数组;逐维度且逐项提取所述网页数据二维数组中可见字符并通过所述数据提取策略进行字符匹配,得到所述网页表格的数据提取结果。2.根据权利要求1所述的表格数据提取方法,其特征在于,所述根据网页表格中行列属性和与所述行列属性对应的数据构建网页数据二维数组包括:根据网页表格中行列属性构建空白二维数组;将与所述行列属性对应的数据逐行且逐项填入所述空白二维数组中,得到网页数据二维数组。3.根据权利要求2所述的网页表格数据提取方法,其特征在于,所述根据网页表格中行列属性构建空白二维数组包括:遍历所述网页表格,筛选所述网页表格中含有行列属性的单元格;将所述含有行列属性的单元格进行累加计算,得到行列值;根据所述行列值构建空白二维数组。4.根据权利要求1所述的网页表格数据提取方法,其特征在于,所述通过所述数据提取格式设置数据提取策略包括:通过字段标识符存储至少一项所述网页表格的字段名;通过行字段标识符标识所述网页表格的行字段;通过列字段标识符标识所述行字段中的列字段;根据所述字段标识符、行字段标识符和列字段标识符设置数据提取策略。5.根据权利要求4所述的网页表格数据提取方法,其特征在于,所述逐维度且逐项提取所述网页数据二维数组中可见字符并通过所述数据提取策略进行字符匹配,得到所述网页表格的数据提取结果包括:将所述第一维度的数组中的元素逐项获取所述可见字符并进行组合,得到网页表格行文本字符数据;将所述网页表格行文本字符数据和所述第二维度的数组通过所述数据提取策略进行字符匹配和字段组装,得到所述网页表格的数据提取结果。6....

【专利技术属性】
技术研发人员:龚志球叶秀清
申请(专利权)人:企查查科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1