【技术实现步骤摘要】
处理表格的方法、计算设备和计算机可读存储介质
本专利技术概括而言涉及机器学习领域,更具体地,涉及一种处理表格的方法、计算设备和计算机可读存储介质。
技术介绍
学术论文是某一学术课题在实验性、理论性或预测性上具有的新的科学研究成果或创新见解和知识的科学记录,或是某种已知原理应用于实际上取得新进展的科学总结。在进行科学研究时,常常需要阅读海量的学术论文以进行知识抽取、归纳与整理。尤其是,学术论文中对其实验结果的记录通常以表格形式体现,系统性提取和重建学术论文中的这些表格信息对于获取和总结知识非常重要。因此,表格结构化(TSR,TableStructureRecognition)是学术论文信息抽取中非常具有挑战性的任务之一,其试图以一种统一格式来体现结构化表格,以便于表格信息能够被计算机自动化提取与应用。当前,从PDF格式或图片格式的学术论文中获取表格文本的方案主要有两种:一种是将论文批量上传至在线软件或类似小软件,软件自动化处理完毕后返回结构化文本,其中表格部分被转换成一串文字;另一种是调用开源API接口,例如安 ...
【技术保护点】
1.一种处理表格的方法,包括:/n利用目标检测模型从图片中截取一个或多个表格子图,其中每个表格子图包括一个表格;/n对每个表格子图进行光学字符识别以检测所述表格子图中的多个字块,其中每个字块包含一个或多个字符;/n利用深度神经网络模型预测所述多个字块中的任意两个字块处于同一行的行概率和处于同一列的列概率;以及/n基于所述多个字块中的任意两个字块处于同一行的行概率和处于同一列的列概率对所述多个字块进行结构化重组以将所述表格重建为结构化表格。/n
【技术特征摘要】
1.一种处理表格的方法,包括:
利用目标检测模型从图片中截取一个或多个表格子图,其中每个表格子图包括一个表格;
对每个表格子图进行光学字符识别以检测所述表格子图中的多个字块,其中每个字块包含一个或多个字符;
利用深度神经网络模型预测所述多个字块中的任意两个字块处于同一行的行概率和处于同一列的列概率;以及
基于所述多个字块中的任意两个字块处于同一行的行概率和处于同一列的列概率对所述多个字块进行结构化重组以将所述表格重建为结构化表格。
2.如权利要求1所述的方法,其中所述深度神经网络模型包括输入层、BioBERT网络层、第一融合向量层、GCN网络层、第二融合向量层、全连接网络层和输出层,其中利用深度神经网络模型预测所述多个字块中的任意两个字块处于同一行的行概率和处于同一列的列概率包括:
在所述输入层,针对待预测的两个字块中的第一字块和第二字块确定所述深度神经网络模型的输入数据,其中所述输入数据包括所述第一字块的第一文本ID、第一位置向量、所述第二字块的第二文本ID、第二位置向量、所述第一字块和所述第二字块之间的相对位置向量以及所述表格子图的邻接矩阵和权重矩阵;
在所述BioBERT网络层,基于所述第一字块的第一文本ID和所述第二字块的第二文本ID分别确定所述第一字块的第一特征向量和所述第二字块的第二特征向量;
在所述第一融合向量层,将所述第一字块的第一位置向量和第一特征向量进行拼接以产生所述第一字块的第一融合向量,并且将所述第二字块的第二位置向量和第二特征向量进行拼接以产生所述第二字块的第二融合向量;
在所述GCN网络层,基于所述第一字块的第一融合向量、所述第二字块的第二融合向量以及所述表格子图的邻接矩阵和权重矩阵,分别确定所述第一字块的第一卷积输出向量和所述第二字块的第二卷积输出向量;
在所述第二融合向量层,将所述第一字块和所述第二字块之间的相对位置向量、所述第一字块的第一融合向量和第一卷积输出向量以及所述第二字块的第二融合向量和第二卷积输出向量进行拼接以确定所述第一字块和所述第二字块的融合特征向量;
在所述全连接网络层,基于所述第一字块和所述第二字块的融合特征向量和第一全连接网络预测所述第一字块和所述第二字块处于同一行的行概率,并且基于所述融合特征向量和第二全连接网络预测所述第一字块和所述第二字块处于同一列的列概率;以及
在所述输出层,输出所述第一字块和所述第二字块的所述行概率和所述列概率。
3.如权利要求2所述的方法,其中针对待预测的两个字块中的第一字块和第二字块确定所述深度神经网络模型的输入数据包括:
将所述第一字块和所述第二字块的文本分别转换为所述第一文本ID和所述第二文本ID;
分别基于所述第一字块和所述第二字块的位置信息获取所述第一字块的第一位置向量和所述第二字块的第二位置向量;
基于所述第一字块的第一位置向量和所述第二字块的第二位置向量确定所述第一字块和所述第二字块之间的相对位置向量;
基于所述表格子图的所述多个字块之间的距离确定所述表格子图的邻接矩阵;以及
基于所述邻接矩阵确定所述表格子图的权重矩阵。
4.如权利要求3所述的方法,其中分别基于所述第一字块和所述第二字块的位置信息获取所述第一字块的第一位置向量和所述第二字块的第二位置向量包括:
基于所述第一字块的位置信息确定所述第一字块的归一化坐标信息,基于所述第一字块的归一化坐标信息确定所述第一字块的归一化中心位置和所述第一字块的归一化宽度和归一化高度,以及基于所述第一字块的归一化坐标信息、归一化中心位置、归一化宽度和归一化高度确定所述第一字块的第一位置向量,以及
基于所述第二字块的位置信息确定所述第二字块的归一化坐标信息,基于所述第二字块的归一化坐标信息确定所述第二字块的归一化中心位置和所述第二字块的归一化宽度和归一化高度,以及基于所述第二字块的归一化坐标信息、归一化中心位置、归一化宽度和归一化高度确定所述第二字块的第二位置向量。
5.如权利要求1所述的方法,其中基于所述多个字块中的任意两个字块处于同一行的行概率和处于同一列的列概率对所述多个字块进行结构化重组以将所述表格重建为结构化表格包括:
对于所述多个字块中的每个字块,基于所述字块与所述多个字块中的其他字块处于同一行的行概率和处于同一列的列概率以及所述字块与所述其他字块之间的位置关系,确定所述结构化表格的行数和列数;
基于所述多个字块中的每个字块的位置信息以及所述结构化表格的行数和列数确定所述结构化表格中的每个候选单元格的边界;
基于所述结构化表格中的两个相邻候选单元格所包含的字块之间的行概率和列概率确定所述两个相邻候选单元格是否应当合并;
响应于确定所述两个相邻候选单元格应当合并,将所述两个相邻候选单元格合并为一个单元格;
响应于确定所述两个相邻候选单元格不应当合并,将所述两个相邻候选单元格确定为两个单独的单元格;以及
基于所述多个字块的位置信息将每个单元格所包含的字块进行合并以重建所述结构化表格。
6.如权利要求5所述的方法,其中确定所述结构化表格的行数和列数包括:
对于所述多个字块中的每个目标字块,确定所述目标字块的候选右字块集合、候选左字块集合、候选上字块集合和候选下字块集合;
分别基于所述目标字块的候选右字块集合、候选左字块集合、候选上字块集合和候选下字块集合中的每个字块的位置信息和所述目标字块的位置信息确定所述目标字块的右字块、左字块、上字块和下字块;
基于所述多个字块中的每个字块的右字块确定所述表格子图的最右字块集合;
对于所述最右字块集合中的每个最右字块,确定其左字块的个数;
基于所述最右字块集合中的每个最右字块的左字块的个数确定所述结构化表格的列数;
基于所述多个字块中的每个字块的下字块确定所述表格子图的最下字块集合;
对于所述最下字块集合中的每个最下字块,确定其上字块的个数;以及
基于所述最下字块集合中的每个最下字块的上字块的个数确定所述结构化表格的行数。
7.如权利要求5所述的方法,其中确定所述结构化表格中的每个候选单元格的边界包括:
基于每个字块的上界坐标、下界坐标和中心位置纵坐标构建所述字块的行特征向量;
基于所述多个字块的行特征向...
【专利技术属性】
技术研发人员:钟韵山,刘蒙蒙,张钰,孙怀玉,
申请(专利权)人:北京贝瑞和康生物技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。