一种基于分类算法的文档表格内容识别方法及装置制造方法及图纸

技术编号：24331726 阅读：64 留言：0更新日期：2020-05-29 19:55

本发明专利技术公开了一种基于分类算法的文档表格内容识别方法，包含以下步骤：A、对文档进行解析；B、实现文表分离；C、根据表格第一列和表格前的文本对表格进行分类；D、将表格还原并结构化入库。本发明专利技术通过利用深度学习技术巧妙地设计相关的分类模型，高效精确地实现文表分离、表名识别、表格还原等模块，最后准确地实现表格内容识别且结构化入库，避免了大量的规则，开发成本小且易于维护。

A method and device of document table content recognition based on classification algorithm

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分类算法的文档表格内容识别方法及装置
本专利技术涉及文档处理
，具体是一种基于分类算法的文档表格内容识别方法及装置。
技术介绍
在对表格的解读过程中，人类有独有的学习和识别方法。想要建立一套自动化识别表格内容的装置是非常困难的，难点在于1、如何有效的判断表格范围，尤其是无表格线的表格；2、一张完整的PDF版式文档表格识别，在文档换页情况下，如何判断换页前后的表格块属于同一张表；3、表格中的具体文本内容及数值所表达的意思。传统的识别方式一般基于大量规则，开发成本大且难以维护，难以达到高准确率和灵活适应。
技术实现思路
本专利技术的目的在于提供一种基于分类算法的文档表格内容识别方法及装置，以解决上述
技术介绍
中提出的问题。为实现上述目的，本专利技术提供如下技术方案：一种基于分类算法的文档表格内容识别方法，其特征在于，包含以下步骤：A、对文档进行解析；B、实现文表分离；C、根据表格第一列和表格前的文本对表格进行分类；D、将表格还原并结构化入库。...

【技术保护点】
1.一种基于分类算法的文档表格内容识别方法，其特征在于，包含以下步骤：/nA、对文档进行解析；/nB、实现文表分离；/nC、根据表格第一列和表格前的文本对表格进行分类；/nD、将表格还原并结构化入库。/n

【技术特征摘要】
1.一种基于分类算法的文档表格内容识别方法，其特征在于，包含以下步骤：
A、对文档进行解析；
B、实现文表分离；
C、根据表格第一列和表格前的文本对表格进行分类；
D、将表格还原并结构化入库。

2.根据权利要求1所述的一种基于分类算法的文档表格内容识别方法，其特征在于，所述步骤A具体是：基于文档的不同类型，分别用不同的处理方式对文档进行解析，获取以字为最小颗粒度的文本信息。

3.根据权利要求2所述的一种基于分类算法的文档表格内容识别方法，其特征在于，所述文档是word文件时，使用word解析器将word转成xml文件。

4.根据权利要求2所述的一种基于分类算法的文档表格内容识别方法，其特征在于，所述文档是pdf文件时，使用word解析器将word转成xml文件。

5.根据权利要求4所述的一种基于分类算法的文档表格内容识别方法，其特征在于，所述步骤B具体是实现在word和pdf情形下的文表分离。

6.根据权利要求4所述的一种基于分类算法的文档表格内容识别方法，其特征在于，所述文档是word...

【专利技术属性】
技术研发人员：李鹏辉，金鑫，邱锡鹏，
申请(专利权)人：上海犀语科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人