【技术实现步骤摘要】
表格数据识别方法、装置、存储介质及计算机设备
[0001]本申请涉及数据处理
,尤其涉及一种表格数据识别方法、装置、存储介质及计算机设备。
技术介绍
[0002]表格作为数据的一种重要载体,具有信息精炼集中、方便体现数据关系等特点,因此,表格便成为了文档中常见的表达方式。
[0003]目前在对表格文件中的表格数据进行结构化识别时,主要使用机器识别的方式,但该种识别方式较为依赖表格的边界线,对于没有边界线或者边界线不全的表格,使用机器识别存在行列不明确、表头和表格内容容易混淆等问题,进而导致该种方式下的表格识别准确率较低。
技术实现思路
[0004]本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中使用机器识别存在行列不明确、表头和表格内容容易混淆等问题,进而导致该种方式下的表格识别准确率较低的技术缺陷。
[0005]本申请提供了一种表格数据识别方法,所述方法包括:获取目标表格;基于所述目标表格的表格特征对所述目标表格进行切割,确定所述目标表格的行数据,所述行数据包括各个行所在 ...
【技术保护点】
【技术特征摘要】
1.一种表格数据识别方法,其特征在于,所述方法包括:获取目标表格;基于所述目标表格的表格特征对所述目标表格进行切割,确定所述目标表格的行数据,所述行数据包括各个行所在的行数及每行中各列的字符串;根据各个行所在的行数及每行中各列的字符串对所述目标表格的表头和表身进行划分,得到划分后的表头和表身;对所述划分后的表头和表身中的数据依次进行识别,得到结构化的表格数据。2.根据权利要求1所述的表格数据识别方法,其特征在于,所述获取目标表格,包括:获取待识别文本,其中,所述待识别文本中包含目标表格;依据现有表格的表格特征对所述待识别文本中目标表格的表格区域进行识别,得到第一识别结果;根据所述第一识别结果从所述待识别文本中提取所述目标表格。3.根据权利要求2所述的表格数据识别方法,其特征在于,所述依据现有表格的表格特征对所述待识别文本中目标表格的表格区域进行识别,得到第一识别结果,包括:在所述待识别文本中查找与现有表格的表格特征对应的区域,并将该区域作为初始表格区域;按照所述现有表格的表格特征对所述初始表格区域中目标表格的表格区域进行识别,得到第一识别结果。4.根据权利要求3所述的表格数据识别方法,其特征在于,所述现有表格的表格特征包括连续横向线条及表头位置关键词;所述按照所述现有表格的表格特征对所述初始表格区域中目标表格的表格区域进行识别,得到第一识别结果,包括:按照所述表头位置关键词确定所述初始表格区域中目标表格的起始位置;按照所述连续横向线条确定所述初始表格区域中目标表格的终止位置;基于所述目标表格的起始位置和终止位置对所述初始表格区域中目标表格的表格区域进行识别,得到第一识别结果。5.根据权利要求3所述的表格数据识别方法,其特征在于,所述现有表格的表格特征包括呈结构化分布的横纵线条;所述按照所述现有表格的表格特征对所述初始表格区域中目标表格的表格区域进行识别,得到第一识别结果,包括:根据所述呈结构化分布的横纵线条中首条横纵线条的交点,确定所述初始表格区域中目标表格的起始位置;根据所述呈结构化分布的横纵线条中最后一条横纵线条的交点,确定所述初始表格区域中目标表格的终止位置;基于所述目标表格的起始位置和终止位置对所述初始表格区域中目标表格的表格区域进行识别,得到第一识别结果。6.根据权利要求1所述的表格数据识别方法,其特征在于,所述基于所述目标表格的表格特征对所述目标表格进行切割,确定所述目标表格的行数据,包括:根据所述目标表格的表格特征,从所述目标表格中划分出多个空白块;
利用各个空白块对所述目标表格进行切割,得到所述目标表格中的多个字符块以及各个字符块在所述目标表格中的位置;按照各个字符块在所述目标表格中的位置对位于同行的字符块进行合并,并根据合并结果确定所述目标表格的行数据。7.根据权利要求6所述的表格数据识别方法,其特征在于,所述目标表格的表格特征包括连续横向线条;所述根据所述目标表格的表格特征,从所述目标表格中划分出多个空白块,包括:以所述连续横向线条为基准,根据所述目标表格中字符的横向排布方式,确定所述目标表格中与所述目标表格近宽的多条连续横向空白块;以所述连续横向空白块为基准,根据所述目标表格中字符的竖向排布方式,确定所述目标表格中的多条竖向空白块。8.根据权利要求6所述的表格数据识别方法,其特征在于,所述目标表格的表格特征包括呈结构化分布的横纵线条;根据所述目标表格的表格特征,从所述目标表格中划分出多个空白块,包括:根据所述呈结构化分布的横纵线条,从所述目标表格划分出多个横纵交错的空白块。9.根据权利要求1所述的表格数据识别方法,...
【专利技术属性】
技术研发人员:黄康龙,李华伟,汪亮,赵笑笑,郭令举,任红轩,施兴华,赵宇亮,
申请(专利权)人:广东粤港澳大湾区国家纳米科技创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。