表格文本的处理方法、装置、电子设备和可读介质制造方法及图纸

技术编号:33351472 阅读:30 留言:0更新日期:2022-05-08 09:58
本公开提供一种表格文本的处理方法、装置、电子设备和可读介质,其中,表格文本的处理方法包括:提取图像中的子线段;确定子线段的属性信息;根据属性信息将子线段划分至对应的线段集合;对线段集合中的子线段进行聚类处理,以得到表格的第一方向线条、第二方向线条和线条间连接点;根据第一方向线条、第二方向线条和线条间连接点确定表格的单元格内的文本信息。通过本公开的实施例,降低了对表格的漏检效率,不需要对表格进行标注和迭代训练,提高了表格检测的精度、效率和可靠性。效率和可靠性。效率和可靠性。

【技术实现步骤摘要】
表格文本的处理方法、装置、电子设备和可读介质


[0001]本公开涉及表格识别
,具体而言,涉及一种表格文本的处理方法、装置、电子设备和可读介质。

技术介绍

[0002]目前,通过提取采集图像中的表格,并通过图像处理算法和识别算法将图像表格转换为电子表格,以提升办公效率。
[0003]在相关技术中,对于表格的识别算法通常是通过表格识别模型实现的,表格识别模型是基于图卷积网络训练得到的,针对表格的节点关系进行后处理以还原待识别表格的表格结构。
[0004]但是,表格识别过程依赖于大量的训练工作,即根据标注的表格样本进行训练过程,不仅需要进行大量的训练和测试工作,而且在图像噪声大、样式多变的情况下,提取表格的准确性和可靠性均较差。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本公开的目的在于提供一种表格文本的处理方法、装置、电子设备和可读介质,用于至少在一定程度上克服由于相关技本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种表格文本的处理方法,其特征在于,包括:提取图像中的子线段;确定所述子线段的属性信息;根据所述属性信息将所述子线段划分至对应的线段集合;对所述线段集合中的子线段进行聚类处理,以得到表格的第一方向线条、第二方向线条和线条间连接点;根据所述第一方向线条、所述第二方向线条和所述线条间连接点确定所述表格的单元格内的文本信息。2.如权利要求1所述的表格文本的处理方法,其特征在于,在提取图像中的子线段前,还包括:检测待处理图像的着色形式是否为灰度;若所述待处理图像的着色形式不是所述灰度,则将所述待处理图像重新着色为灰度图像;将所述灰度图像确定为待所述LSD线段提取算法的图像。3.如权利要求1或2所述的表格文本的处理方法,其特征在于,根据所述属性信息将所述子线段划分至对应的线段集合包括:解析所述属性信息以确定所述子线段的第一宽度、第一高度和角度;确定所述图像的第二宽度和第二高度;计算所述第一宽度与所述第二宽度之间的宽度比值;计算所述第一高度与所述第二高度之间的高度比值;将宽度比值大于预设宽度比值,且角度属于预设第一角度阈值区间的子线段划分至第一方向线段集合;将高度比值大于预设高度比值,且角度属于预设第二角度阈值区间的子线段划分至第二方向线段集合。4.如权利要求3所述的表格文本的处理方法,其特征在于,对所述线段集合中的子线段进行聚类处理,以得到表格的第一方向线条、第二方向线条和线条间连接点包括:确定所述线段集合中的子线段之间的第一间距;根据所述第一间距将所述子线段聚类至子集合;确定所述子集合之间的第二间距;根据所述第二间距对所述子线段进行聚类和合并,以得到表格的第一方向线条、第二方向线条和线条间连接点。5.如权利要求4所述的表格文本的处理方法,其特征在于,根据所述第二间距对所述子线段进行聚类和合并,以得到表格的第一方向线条、第二方向线条和线条间连接点包括:根据第二间距对所述第一方向线段集合的子线段进行聚类;对聚类后的第一方向线段集合的子线段进行行方向上的首尾拼接,以得到所述表格的第一方向长线段;根据所述第一方向长线段的间距对所述第一方向长线段进行列方向上的合并,以得到所述表格的第一方向线条。6.如权利要求4所述的表格文本的处理方法,其特征在于,根据所述第二间距对所述子
线段进行聚类和合...

【专利技术属性】
技术研发人员:唐铭蔚裴积全
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1