【技术实现步骤摘要】
本申请涉及表格图片信息提取,具体是涉及一种基于深度学习的表格图片标准化输出的方法。
技术介绍
1、现有的表格识别技术通常依赖于深度学习模型来处理图像中的表格数据。这些技术主要包括使用深度学习进行直线检测以识别表格边界,运用图像处理技术来校正倾斜和畸变,以及使用ocr技术识别并提取表格中的文字信息。这些方法在简单或标准格式的表格识别上表现良好,但在几个关键方面存在明显的不足:
2、第一,自动化程度和效率问题:现有方案在处理大规模或复杂数据集时,自动化程度和处理效率较低,导致在需要快速处理大量数据的场景中效率不足;第二,复杂表格处理能力有限:在处理无明显表格线、多层嵌套或不规则布局的复杂表格时,现有技术的表现通常不佳;第三,文本和结构融合不足:这些技术在将识别的文本内容与表格结构有效结合时面临挑战,尤其是在需要精确对应文本与单元格的应用中。
3、总的来说,现有的表格识别技术在基本的直线检测和文字提取方面已有所发展,但在处理复杂表格结构、提高融合效率和自动化水平方面,仍有待进一步的优化和提高。
<
...【技术保护点】
1.一种基于深度学习的表格图片标准化输出的方法,其特征在于,包括:
2.根据权利要求1所述基于深度学习的表格图片标准化输出的方法,其特征在于,针对表格图片采用表格线检测算法进行表格线识别,获得表格分割线列表包括:
3.根据权利要求2所述基于深度学习的表格图片标准化输出的方法,其特征在于,所述根据表格分割线列表与检测位置列表完成表格线合并,获得单元格分割线列表包括:
4.根据权利要求1所述基于深度学习的表格图片标准化输出的方法,其特征在于,所述将识别文本列表与表格的结构化格式结合,获得表格图片对应的标准结构化表格文本包括:
【技术特征摘要】
1.一种基于深度学习的表格图片标准化输出的方法,其特征在于,包括:
2.根据权利要求1所述基于深度学习的表格图片标准化输出的方法,其特征在于,针对表格图片采用表格线检测算法进行表格线识别,获得表格分割线列表包括:
3.根据权利要求2所述基于深度学习的表格图片标准化输出的方法,其特征在于,所述根据表格分割线列表与检测位置列表完成表格线合并,获得单元格分割线列表包括:
4.根据权利要求1所述基于深度学习的表格图片标准化输出的方法,其特征在于,所述将识别文本列表与表格的结构化格式结合,获得表格图片对应的标准结构化表格文本包括:
5.根据权利要求2所述基于深度学习的表格图片标准化输出的方法,其特征在于,所述表格线提取层的操作包括:
6.根据权利要求2所述基于深度学习的表格图片标准化输出的方法,其特征在于,所...
【专利技术属性】
技术研发人员:廖闻剑,李磊,孙中锋,朱和军,董文君,
申请(专利权)人:南京烽火星空通信发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。