文档结构化方法、系统、终端及介质技术方案

技术编号：27936785 阅读：44 留言：0更新日期：2021-04-02 14:17

本发明专利技术提供了一种文档结构化方法及系统，包括：获取文档的文字区块以及文字字段；其中，所述文字区块包括位置框，所述文字字段包括位置框和文本内容；基于所述文字区块的位置框和文字字段的位置框，对所述文本内容进行排列；基于所述文本内容的排列结果，进行结构化信息提取；根据提取的结构化信息，建立结构化文档。同时提供了一种对应的终端及存储介质。本发明专利技术能够突破基于图像目标检测必须使用固定文档模板的局限性，并提高文字检测识别方法的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文档结构化方法、系统、终端及介质
本专利技术涉及文档处理自动化
，具体地，涉及一种文档结构化方法、系统、终端及介质。
技术介绍
文档处理自动化利用人工智能技术可以帮助人们利用机器处理电子文档，其中一项关键的任务就是自动文档分析与识别技术。面对大量无标注电子文档，例如采购收据、保险单文件、海关申报单等，如果完全由人工处理提取关键的信息会耗费大量的人力物力。因此，如何有效的使用人工智能从文档中提取获得关键的感兴趣的信息非常重要。现有的文档内容结构化的方法包括传统的基于字符串匹配的规则方法、基于命名实体识别和基于目标检测的方法等。基于字符串匹配的规则方法通常需要设计一套正则表达式，通过正则匹配的方式去获得其需要得到的关键信息。这种方法通过人工设计特征匹配的方式，基于字符串匹配的算法优势于不要大量的训练数据，但是要求提取的信息有很强的字符特征并且符合预先设计的规则，否则不能准确获取关键信息。当文档结构变化大以及需要识别和获取的信息增多，这种方案的设计难度就会很大而且准确度很低。因此采用字符串匹配的方案在泛化性和...

【技术保护点】
1.一种文档结构化方法，其特征在于，包括：/n获取文档的文字区块以及文字字段；其中，所述文字区块包括位置框，所述文字字段包括位置框和文本内容；/n基于所述文字区块的位置框和文字字段的位置框，对所述文本内容进行排列；/n基于所述文本内容的排列结果，进行结构化信息提取；/n根据提取的结构化信息，建立结构化文档。/n

【技术特征摘要】
1.一种文档结构化方法，其特征在于，包括：
获取文档的文字区块以及文字字段；其中，所述文字区块包括位置框，所述文字字段包括位置框和文本内容；
基于所述文字区块的位置框和文字字段的位置框，对所述文本内容进行排列；
基于所述文本内容的排列结果，进行结构化信息提取；
根据提取的结构化信息，建立结构化文档。

2.根据权利要求1所述的结合图像和文字识别的文档结构化方法，其特征在于，所述文档包括图片文档和电子文档。

3.根据权利要求2所述的结合图像和文字识别的文档结构化方法，其特征在于，所述获取文档的文字字段，包括：
所述图片文档通过图像识别方法进行文字定位与识别，获取文字字段的文本内容和位置框；
所述电子文档根据文件类型读取文件，获取文本内容和文本边界框；或，通过将电子文档转换为图片文档，再通过图像识别方法获取文字字段的文本内容和位置框。

4.根据权利要求3所述的结合图像和文字识别的文档结构化方法，其特征在于，所述图像识别方法，包括：
检测文档中的文字字段，获得位置框的顶点的坐标和位置框的旋转角度；
在得到位置框的顶点的坐标和旋转角度后，调整得到水平的文字字段，从图像中截取出水平的文字字段部分图片，输入到用于识别文字的深度学习模型，得到文字字段中的文本内容。

5.根据权利要求2所述的结合图像和文字识别的文档结构化方法，其特征在于，所述获取文档的文字区块，包括：
将所述电子文档转换为图片文档；
采用预训练的目标检测模型，以图片文档作为输入，输出文字区块的位置框。

6.根据权利要求5所述的结合图像和文字识别的文档结构化方法，其特征在于，所述预训练的过程，包括：
利用训练样本集和测试样本集训练用于文字区块目标检测的深度学习网络模型；
计算深度学习网络模型检测文字区块的误差，根据误差反向输入到深度学习网络模型，调整深度学习网络模型的参数；
利用训练样本集和测试样本集继续训练调整后的深度学习网络模型，直到深度学习网络模型的检测误差降低到设定程度，即完成对目标检测模型的训练。

7.根据权利要求6所述的结合图像和文字识别的文档结构化方法，其特征在于，所述训练样本集和测试样本集中作为样本的文档均包括若干文字区块，并按照要求进行标注；其中，所述标注的文件中包括：每个文字区块在文档中的位置。

8.根据权利要求1所述的结合图像和文字识别的文档结构化方法，其特征在于，所述基于所述文字区块的位置框和文字字段的位置框，对所述文本内容进行排列，包括：
基于所述文字区块的位置框和文字字段的位置框，对所述文字区块和文字字段进行联合优化，得到改进的文字区块；
将所述改进的文字区块内文字字段的文本内容排列为一串文字，获得文字区块所对应的文字串，完成对文本内容的排列。

9.根据权利要求8所述的结合图像和文字识别的文档结构化方法，其特征在于...

【专利技术属性】
技术研发人员：周异，周曲，韦建，何建华，
申请(专利权)人：上海深杳智能科技有限公司，厦门商集网络科技有限责任公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人