【技术实现步骤摘要】
td标签进行对齐,并将td标签的列号、跨行数目以及跨列数目分配给对应的Bbox,完成匹配行的各Bbox标签的分配;步骤5,基于匹配行,根据水平方向的坐标位置关系,对所有未匹配行中的Bbox的列号进行投票,投票数最多的列号作为Bbox列号的预测结果,基于列号将Bbox与同行的td标签进行对齐,将td标签的跨列数目与跨行数目分配给对应的Bbox,完成未匹配行的各Bbox标签的分配;步骤6,综合已分配好行号、列号、跨行数目以及跨列数目的匹配行以及未匹配行,得到整个表格各Bbox的行号、列号、跨行数目以及跨列数目的分配结果。
[0009]具体地,所述的得到td标签的行号和列号,包括如下步骤:根据HTML结构字符串中tr标签确定表格的行数,从而确定每一个td标签的行号;遍历结构字符串每一个td标签的内容得到总的列数;再次遍历结构字符串,根据td标签从左至右的顺序、colspan值、rowspan值以及总的列数得到每一个td标签的列号;综合以上,得到每一个td标签的行号、列号。
[0010]可选地,所述的得到td标签的跨行数目和跨列数目,包括如下步骤:遍历HTM ...
【技术保护点】
【技术特征摘要】
1.一种表格的标记语言标签与单元格锚框鲁棒对齐方法,其特征在于,包括:解析HTML结构字符串,得到td标签的行号、列号、跨行数目以及跨列数目;基于单元格的Bbox的竖直方向的坐标位置关系,为每个单元格分配行号,并根据水平方向的坐标位置关系将Bbox从左至右进行排序;比较每一行的td标签的数量是否与Bbox的数量一致,若数量一致则称为匹配行,反之称为未匹配行;按照每一行从左到右的顺序,依次将匹配行中每个Bbox标签与其对应行的 td标签进行对齐,并将td标签的列号、跨行数目以及跨列数目分配给对应的Bbox,完成匹配行的各Bbox标签的分配;基于匹配行,根据水平方向的坐标位置关系,对所有未匹配行中的Bbox的列号进行投票,投票数最多的列号作为Bbox列号的预测结果,基于列号将Bbox 与同行的td标签进行对齐,将td标签的跨列数目与跨行数目分配给对应的Bbox,完成未匹配行的各Bbox标签的分配;综合已分配好行号、列号、跨行数目以及跨列数目的匹配行以及未匹配行,得到整个表格各Bbox的行号、列号、跨行数目以及跨列数目的分配结果。2.如权利要求1所述的一种表格的标记语言标签与单元格锚框鲁棒对齐方法,其特征在于,所述的得到td标签的行号和列号,包括如下步骤:根据HTML结构字符串中tr标签出现的次数确定每一个td标签的行号;遍历结构字符串每一个td标签的内容得到总的列数;再次遍历结构字符串,根据td标签从左至右的顺序、colspan值、rowspan值以及总的列数得到每一个td标签的列号;综合以上,得到每一个td标签的行号、列号。3.如权利要求1所述的一种表格的标记语言标签与单元格锚框鲁棒对齐方法,其特征在于,所述的得到td标签的跨行数目和跨列数目,包括如下步骤:遍历HTML结构字符串得到每一个td标签的内容,若td标签中含有span,则根据标签中colspan值和rowspan值得到跨列数目和跨行数目,若td标签不含span,则跨列数目和跨行数目均为1。4.如权利要求1所述的一种表格的标记语言标签与单元格锚框鲁棒对齐方法,其特征在于,所述的基于单元格的Bbox的竖直方向的坐标位置关系,为每个Bbox分配行号,包括如下步骤:根据Bbox左上角坐标的y值从小到大对所有Bbox进行排序;设置初始行号,遍历Bbox列表,当相邻两Bbox的y坐标分量差值小于预设的阈值,则两Bbox属同一行且行号保持不变,若差值大于阈值,则两个单元格不属于同一行且将行号加一,直至遍历完Bbox列表,完成对单元格行号的分配;在每一行内,根据左上角坐标的x分量从小到大对Bbox进行排序。5.如权利要求1所述的一种表格的标记语言标签与单元格锚框鲁棒对齐方法,其特征在于,所述的比较每一行的td标签的数量是否与Bbox的数量一致,包括如下步骤:遍历某一行已分配好行号的Bbox,得到该行的Bbox的数量;遍历对应行的td标签的跨列数目和跨行数目,得到td标签的数量;
若两个数量相等则称为匹配行,反之称为未匹配行。6.如权利要求1所述的一种表格的标记语言标签与单元格锚框鲁棒对齐方法,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。