【技术实现步骤摘要】
基于计算机视觉和自然语言处理的图片表格内容提取方法
[0001]本专利技术涉及表格数据提取
,具体涉及基于计算机视觉和自然语言处理的图片表格内容提取方法。
技术介绍
[0002]基于计算机视觉及自然语言处理技术进行信息抽取的应用越来越广泛,如从图片中识别文字、从文本中抽取人名、地名、电话号码等实体,从发票、保险单以及其他表格中抽取关键信息等。同时,各大云厂商也都提基于云平台供了如票据、合同等表格数据的识别服务。
[0003]现有对表格数据的提取技术主要集中在两个方面。第一,通过传统的图像处理方法,如腐蚀、膨胀、边缘检测、轮廓识别等,先识别图片中的表格,再通过OCR技术识别单元格中的内容,该方法针对带边框的表格,识别效率高,但针对少边框或无边框表格基本没有识别能力。第二,通过深度学习技术,如目标检测、实例分隔等方法,识别表格的各个区域,然后再通过OCR识别各个区域中的文本内容,该方法可以解决有边框、少边框甚至无边框的表格数据的提取问题。
[0004]上述两种方法存在一个共同的问题,即都可以识别表格中的内容 ...
【技术保护点】
【技术特征摘要】
1.基于计算机视觉和自然语言处理的图片表格内容提取方法,其特征在于,包括以下步骤:步骤1:将含有表格的图片输入到表格边框识别模型中,确定表格是否有边框,针对有边框表格,使用传统图像处理方法,计算表格中各单元格坐标,针对无边框表格,使用基于深度学习的文本区域检测,推理和计算单元格坐标;步骤 2:将每个表格中的单元格依次输入到OCR文字识别引擎PaddleOCR中进行识别,提取表格中各单元格的文本内容;步骤3:根据提取单元格的文本内容,按照键、值、混合值三种类型进行标注,构建表格内容分类数据集,并基于该数据集训练单元格内容分类模型;步骤4:根据表格坐标、单元格坐标以及每个单元格文本的类别,推断表格的布局;步骤5:根据表格的布局信息、各个单元格的内容和类别信息,将表中的数据以JSON的格式组织起来。2.根据权利要求1所述的基于计算机视觉和自然语言处理的图片表格内容提取方法,其特征在于:所述步骤1包括表格区域检测、单元格区域检测和表格边框识别,步骤如下:步骤101:使用图像处理中的膨胀、模糊操作对含有表格图片的数据进行增强;步骤102:将增强后的含有表格的图片数据按照8:2的比例拆分成训练集和测试集,使用训练集数据训练CascadeTabNet模型,将输入的图片调整到指定尺寸后送入主干特征提取网络,然后将特征提取网络的输出输入到RPN Head中生成推荐Bounding Box框,将生成的Bounding Box分别输入到Box Head和Mask Head中,其中,Box Head输出表格或者单元格区域的坐标以及该区域类别和得分,Mask Head输出对应区域的掩码矩阵;步骤103:根据Box Head输出的表格类别,判断图片中的表格为无边框表格或有边框表格,对有边框表格使用图像形态学操作,识别出表格边框,然后再根据表格边框的相交信息,确定单元格坐标,对少边框或者无边框表格,使用输出的单元格区域掩码矩阵,结合文...
【专利技术属性】
技术研发人员:王国栋,
申请(专利权)人:中奥智能工业研究院南京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。