基于人工智能的表格识别方法、装置及电子设备制造方法及图纸

技术编号:23344513 阅读:34 留言:0更新日期:2020-02-15 04:15
本公开提供了一种基于人工智能的表格识别方法、基于人工智能的表格识别装置以及电子设备,主要涉及计算机视觉、自然语言处理和机器学习等技术。该方法包括:基于图像语义对待识别图像进行图像分割以得到前景线条图像;根据所述前景线条图像中的线条关系确定多个表格单元格,并根据所述多个表格单元格建立电子表格;对所述待识别图像进行文本识别以得到所述待识别图像中的文本信息;根据所述文本信息在所述待识别图像中的位置以及所述表格单元格在所述电子表格中的位置,将所述文本信息填充至所述电子表格中。该方法通过对表格结构与表格内容进行分割、识别、再组合的方式可以避免二者在识别过程中的相互干扰,从而可以提高表格的识别准确性。

Table recognition method, device and electronic equipment based on Artificial Intelligence

【技术实现步骤摘要】
基于人工智能的表格识别方法、装置及电子设备
本公开涉及人工智能
,具体而言,涉及一种基于人工智能的表格识别方法、基于人工智能的表格识别装置以及电子设备。
技术介绍
电子文档相比于传统的纸质文档具有易于传播、易于存储、节约资源等优点,随着计算机技术的发展,电子文档也逐渐成为数据处理领域的主流形式。以图像格式存储的电子文档可以方便地进行传播和存储,但是难以进行内容编辑。尤其是以图像格式存储的表格,为了对图像中的表格内容进行编辑,需要对其进行内容识别以形成可编辑的电子表格。由于涉及关系复杂的表格结构和表格内容,如何能够准确地从图像中识别和提取表格是目前亟待解决的问题。
技术实现思路
本公开的目的在于提供一种基于人工智能的表格识别方法、基于人工智能的表格识别装置以及电子设备,进而至少在一定程度上克服相关技术中存在的表格结构识别困难、内容提取准确性差等技术问题。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开实施例的一个方面,提供一种基于人工智能的表格识别方法本文档来自技高网...

【技术保护点】
1.一种基于人工智能的表格识别方法,其特征在于,包括:/n基于图像语义对待识别图像进行图像分割以得到前景线条图像;/n根据所述前景线条图像中的线条关系确定多个表格单元格,并根据所述多个表格单元格建立电子表格;/n对所述待识别图像进行文本识别以得到所述待识别图像中的文本信息;/n根据所述文本信息在所述待识别图像中的位置以及所述表格单元格在所述电子表格中的位置,将所述文本信息填充至所述电子表格中。/n

【技术特征摘要】
1.一种基于人工智能的表格识别方法,其特征在于,包括:
基于图像语义对待识别图像进行图像分割以得到前景线条图像;
根据所述前景线条图像中的线条关系确定多个表格单元格,并根据所述多个表格单元格建立电子表格;
对所述待识别图像进行文本识别以得到所述待识别图像中的文本信息;
根据所述文本信息在所述待识别图像中的位置以及所述表格单元格在所述电子表格中的位置,将所述文本信息填充至所述电子表格中。


2.根据权利要求1所述的基于人工智能的表格识别方法,其特征在于,所述根据所述前景线条图像中的线条关系确定多个表格单元格,包括:
对所述前景线条图像进行线条拟合以确定多个图像线条;
根据各个所述图像线条之间的位置关系确定多个由所述图像线条相交形成的线条交点;
根据各个所述线条交点之间的位置关系确定多个以所述线条交点为顶点的表格单元格。


3.根据权利要求2所述的基于人工智能的表格识别方法,其特征在于,所述图像线条包括沿第一方向分布的横向线条和沿第二方向分布的纵向线条;所述对所述前景线条图像进行线条拟合以确定多个图像线条,包括:
利用横向线条卷积核对所述前景线条图像进行卷积处理以得到横向线条图像;
在所述横向线条图像中确定多个沿第一方向分布的第一像素连通区域;
分别对各个所述第一像素连通区域中的像素点进行线条拟合以确定多个横向线条;
利用纵向线条卷积核对所述前景线条图像进行卷积处理以得到纵向线条图像;
在所述纵向线条图像中确定多个沿第二方向分布的第二像素连通区域;
分别对各个所述第二像素连通区域中的像素点进行线条拟合以确定多个纵向线条。


4.根据权利要求3所述的基于人工智能的表格识别方法,其特征在于,所述根据各个所述图像线条之间的位置关系确定多个由所述图像线条相交形成的线条交点,包括:
获取各个所述图像线条的直线拟合函数并确定各个所述图像线条的线条端点;
根据所述直线拟合函数确定任意一个横向线条与任意一个纵向线条的待定交点;
根据所述线条端点和所述待定交点的位置关系确定由所述横向线条和所述纵向线条相交形成的线条交点。


5.根据权利要求4所述的基于人工智能的表格识别方法,其特征在于,所述根据所述线条端点和所述待定交点的位置关系确定由所述横向线条和所述纵向线条相交形成的线条交点,包括:
获取所述横向线条的第一横向端点、第二横向端点以及所述待定交点两两之间的横向位置距离;
根据所述横向位置距离确定所述横向线条与所述待定交点之间的横向线条距离;
获取所述纵向线条的第一纵向端点、第二纵向端点以及所述待定交点两两之间的纵向位置距离;
根据所述纵向位置距离确定所述纵向线条与所述待定交点之间的纵向线条距离;
在所述横向线条距离和所述纵向线条距离之中的较大值小于距离阈值时,将所述待定交点确定为所述横向线条和所述纵向线条相交形成的线条交点。


6.根据权利要求2所述的基于人工智能的表格识别方法,其特征在于,所述根据各个所述线条交点之间的位置关系确定多个以所述线条交点为顶点的表格单元格,包括:
遍历位于所述前景线条图像上的所述多个线条交点,以在所述前景线条图像上查找与当前线条交点构成最小矩形的三个关联线条交点;
在所述前景线条图像上存在与所述当前线条交点相关的所述三个关联线条交点时,确定以所述当前线条交点和所述三个关联线条交点为顶点的表格单元格。


7.根据权利要求1所述的基于人工智能的表格识别方法,其特征在于,所述基于图像语义对待识别图像进行图像分割以得到前景线条图像,包括:
基于图像语义对待识别图像中的像素点进行分类以确定图像线条所在的前景像素点;
根据所述前景像素点对所述待识别图像进行图像分割以得到前景线条图像。


8.根据权...

【专利技术属性】
技术研发人员:李鑫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1