System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及金融科技,尤其涉及一种表格构建方法和装置、计算机设备及存储介质。
技术介绍
1、目前,在金融领域,数据通常以表格存储,相关技术中,为了提高表格数据的处理效率,采用预先训练的模型对表格数据进行处理。然而,训练模型需要大量的表格,且需要对表格提前标注以表征表格中的元素内容,再将标注和表格组合形成表格。但表格生成时间长且数量少,且人工标注不仅需要耗费大量人力使得标注成本高,且对于表格集中结构变化较大的表格标注效果差。因此,如何高效且节省人力地构建表格,成为了亟待解决的技术问题。
技术实现思路
1、本申请实施例的主要目的在于提出一种表格构建方法和装置、计算机设备及存储介质,旨在高效构建带有标注的表格,且节省表格标注的人力。
2、为实现上述目的,本申请实施例的第一方面提出了一种表格构建方法,所述方法包括:
3、获取原始网页和所述原始网页的网页结构信息;其中,所述网页结构信息包括:原始表格结构标签信息或网页结构元素信息;
4、根据所述原始表格结构标签信息对所述原始网页进行第一表格区域截取,得到第一表格图片;
5、根据所述网页结构元素信息对所述原始网页进行第二表格区域截取,得到第二表格图片;
6、根据所述第二表格图片构建表格结构标签序列,得到第二表格结构标签信息;
7、根据预设的表格映射关系将所述原始表格结构标签信息进行表格转换,得到所述第一表格图片的第一表格描述信息;
8、根据预设的表格映射关系将所述
9、根据所述第一表格描述信息、所述第一表格图片、所述第二表格描述信息和所述第二表格图片构建目标表格。
10、在一些实施例,所述根据所述原始表格结构标签信息对所述原始网页进行第一表格区域截取,得到第一表格图片,包括:
11、根据预设标签信息和所述原始表格结构标签信息对所述原始网页进行筛选处理,得到选定网页;
12、获取所述选定网页的所述原始表格结构标签信息,得到选定表格结构标签信息;
13、根据所述选定表格结构标签信息对所述选定网页进行表格区域选取,得到选定表格区域;
14、根据所述选定表格区域对所述选定网页进行截取,得到所述第一表格图片。
15、在一些实施例,所述选定表格结构标签信息包括:当前表格结构标签信息和表格祖先结构标签信息,所述根据所述选定表格结构标签信息对所述选定网页进行表格区域选取,得到选定表格区域,包括:
16、根据所述当前表格结构标签信息对所述选定网页进行表格区域锚框处理,得到第一候选表格区域;
17、根据所述表格祖先结构标签信息对所述选定网页进行表格区域锚框处理,得到第二候选表格区域;
18、对所述第一候选表格区域进行面积计算,得到第一表格面积;
19、对所述第二候选表格区域进行面积计算,得到第二表格面积;
20、获取所述第一表格面积和所述第二表格面积之间的比值,得到表格面积比值;
21、根据所述表格面积比值对所述第一候选表格区域和所述第二候选表格区域进行筛选处理,得到选定表格区域。
22、在一些实施例,所述表格面积比值小于1,所述根据所述表格面积比值对所述第一候选表格区域和所述第二候选表格区域进行筛选处理,得到选定表格区域,包括:
23、若所述表格面积比值大于或等于第一预设比值且所述表格面积比值小于或等于第二预设比值,将所述第一候选表格区域和所述第二候选表格区域中任意一个区域作为所述选定表格区域;其中,所述第二预设比值小于1;
24、若所述表格面积比值小于所述第一预设比值或者大于所述第二预设比值,将所述第一候选表格区域作为所述选定表格区域。
25、在一些实施例,所述根据所述网页结构元素信息对所述原始网页进行第二表格区域截取,得到第二表格图片,包括:
26、根据所述网页结构元素信息对所述原始网页进行网页块级元素提取,得到选定网页块级元素;
27、对所述选定网页块级元素进行面积计算,得到块级元素面积;
28、从所述块级元素面积提取出最大块级元素面积;
29、将所述最大块级元素面积的所述选定网页块级元素作为目标网页块级元素;
30、根据所述目标网页块级元素对所述原始网页进行区域选取,得到选定网页区域;
31、根据所述选定网页区域对所述原始网页进行截取,得到所述第二表格图片。
32、在一些实施例,所述根据所述第二表格图片构建表格结构标签序列,得到第二表格结构标签信息,包括:
33、对所述第二表格图片进行单元格划分,得到图片单元格;
34、获取每一列所述图片单元格的数量,得到候选列跨度;
35、获取每一行所述图片单元格的数量,得到候选行跨度;
36、对所述候选列跨度进行缩减处理,得到目标列跨度;
37、对所述候选行跨度进行缩减处理,得到目标行跨度;
38、根据所述目标列跨度和所述目标行跨度构建所述第二表格结构标签信息。
39、在一些实施例,所述原始表格结构标签信息包括:表格参数标签信息;所述根据预设的表格映射关系将所述原始表格结构标签信息进行表格转换,得到所述第一表格图片的第一表格描述信息,包括:
40、根据所述表格参数标签信息和所述表格映射关系进行表格位置查找,得到表格填入位置信息;
41、根据所述表格填入位置信息和所述表格参数标签信息进行表格构建,得到所述第一表格图片的所述第一表格描述信息。
42、为实现上述目的,本申请实施例的第二方面提出了一种表格构建装置,所述装置包括:
43、获取模块,用于获取原始网页和所述原始网页的网页结构信息;其中,所述网页结构信息包括:原始表格结构标签信息或网页结构元素信息;
44、第一表格截取模块,用于根据所述原始表格结构标签信息对所述原始网页进行第一表格区域截取,得到第一表格图片;
45、第二表格截取模块,用于根据所述网页结构元素信息对所述原始网页进行第二表格区域截取,得到第二表格图片;
46、标签序列构建模块,用于根据所述第二表格图片构建表格结构标签序列,得到第二表格结构标签信息;
47、第一表格转换模块,用于根据预设的表格映射关系将所述原始表格结构标签信息进行表格转换,得到所述第一表格图片的第一表格描述信息;
48、第二表格转换模块,用于根据预设的表格映射关系将所述第二表格结构标签信息进行表格转换,得到所述第二表格图片的第二表格描述信息;
49、表格构建模块,用于根据所述第一表格描述信息、所述第一表格图片、所述第二表格描述信息和所述第二表格图片构建目标表格。
50、为实现上述目的,本申请实施例的第三方面提出了一种电本文档来自技高网...
【技术保护点】
1.一种表格构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述原始表格结构标签信息对所述原始网页进行第一表格区域截取,得到第一表格图片,包括:
3.根据权利要求2所述的方法,其特征在于,所述选定表格结构标签信息包括:当前表格结构标签信息和表格祖先结构标签信息,所述根据所述选定表格结构标签信息对所述选定网页进行表格区域选取,得到选定表格区域,包括:
4.根据权利要求3所述的方法,其特征在于,所述表格面积比值小于1,所述根据所述表格面积比值对所述第一候选表格区域和所述第二候选表格区域进行筛选处理,得到选定表格区域,包括:
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述网页结构元素信息对所述原始网页进行第二表格区域截取,得到第二表格图片,包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述第二表格图片构建表格结构标签序列,得到第二表格结构标签信息,包括:
7.根据权利要求6所述的方法,其特征在于,所述原始表格结构标签信息包括:表格参数标签信息;所
8.一种表格构建装置,其特征在于,所述装置包括:
9.一种计算机设备,其特征在于,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的表格构建。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的表格构建方法。
...【技术特征摘要】
1.一种表格构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述原始表格结构标签信息对所述原始网页进行第一表格区域截取,得到第一表格图片,包括:
3.根据权利要求2所述的方法,其特征在于,所述选定表格结构标签信息包括:当前表格结构标签信息和表格祖先结构标签信息,所述根据所述选定表格结构标签信息对所述选定网页进行表格区域选取,得到选定表格区域,包括:
4.根据权利要求3所述的方法,其特征在于,所述表格面积比值小于1,所述根据所述表格面积比值对所述第一候选表格区域和所述第二候选表格区域进行筛选处理,得到选定表格区域,包括:
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述网页结构元素信息对所述原始网页进行第二表格区域截取,得到第二表格图片,包括:
<...【专利技术属性】
技术研发人员:张智,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。