文档结构化方法、系统、终端及介质技术方案

技术编号:27936785 阅读:13 留言:0更新日期:2021-04-02 14:17
本发明专利技术提供了一种文档结构化方法及系统,包括:获取文档的文字区块以及文字字段;其中,所述文字区块包括位置框,所述文字字段包括位置框和文本内容;基于所述文字区块的位置框和文字字段的位置框,对所述文本内容进行排列;基于所述文本内容的排列结果,进行结构化信息提取;根据提取的结构化信息,建立结构化文档。同时提供了一种对应的终端及存储介质。本发明专利技术能够突破基于图像目标检测必须使用固定文档模板的局限性,并提高文字检测识别方法的准确性。

【技术实现步骤摘要】
文档结构化方法、系统、终端及介质
本专利技术涉及文档处理自动化
,具体地,涉及一种文档结构化方法、系统、终端及介质。
技术介绍
文档处理自动化利用人工智能技术可以帮助人们利用机器处理电子文档,其中一项关键的任务就是自动文档分析与识别技术。面对大量无标注电子文档,例如采购收据、保险单文件、海关申报单等,如果完全由人工处理提取关键的信息会耗费大量的人力物力。因此,如何有效的使用人工智能从文档中提取获得关键的感兴趣的信息非常重要。现有的文档内容结构化的方法包括传统的基于字符串匹配的规则方法、基于命名实体识别和基于目标检测的方法等。基于字符串匹配的规则方法通常需要设计一套正则表达式,通过正则匹配的方式去获得其需要得到的关键信息。这种方法通过人工设计特征匹配的方式,基于字符串匹配的算法优势于不要大量的训练数据,但是要求提取的信息有很强的字符特征并且符合预先设计的规则,否则不能准确获取关键信息。当文档结构变化大以及需要识别和获取的信息增多,这种方案的设计难度就会很大而且准确度很低。因此采用字符串匹配的方案在泛化性和适用性上有明显的缺陷。基于命名实体识别方法(NamedEntityRecognition,简称NER),是将文档内容结构化任务转化为序列标注问题。命名实体识别又称专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。对于文档内容,基于命名实体识别的方法将文档中的文字内容串联成一段序列,并通过一些方法(比如深度学习)的方式去对这个序列进行序列标注。近年来基于预训练模型的命名实体识别模型的准确率得到很大提高。但是基于命名实体识别的模型也有很大的缺陷:1)将整个文档文字内容串联成序列来处理丢失了文档内容的大量空间信息;2)命名实体识别的方法处理具有多行内容的字段的性能较差。基于图像目标检测的方法,将文档中关键字段的内容作为图像中的目标进行检测和识别,需要利用固定的文档模板的数据训练目标检测模型,并且只能应用到相应的固定文档模板的业务,具有较大的局限性。经过检索发现:公开号为CN109086756A,公开日为2018.12.25的中国专利技术专利申请《一种基于深度神经网络的文本检测分析方法、装置及设备》,包括:进行模板标注,生成标注模板信息;利用预设深度神经网络检测模型对待检测图像进行文字区域的检测和分类,生成带类别的文字区域信息;根据所述标注模板信息和所述带类别的文字区域信息进行模板匹配,生成结构化信息数据。该方法仍然存在如下问题:该方法完全依赖于文档的模版,需要将检测的文字区域进行检测分类然后和模版的文字区域信息进行匹配,此处理将很大程度上限制该方法的应用范围,不能处理新业务的文档。公开号为CN109816118A,公开日为2019.05.28的中国专利技术专利申请《一种基于深度学习模型的创建结构化文档的方法及终端》,通过预设训练样本集;所述训练样本集中的每一样本包括文档图片和与所述文档图片对应的标注文档;所述标注文档记录所述文档图片中每一关键字段的位置信息和类别信息;使用所述训练样本集训练预设的第一深度学习模型,得到第二深度学习模型;所述第二深度学习模型分析第一文档图片,得到所述第一文档图片中每一关键字段的位置信息和类别信息;根据所述第一文档图片中每一关键字段的位置信息和类别信息创建与所述第一文档图片对应的结构化文档。该方法仍然存在如下问题:该方法在训练过程中所用的样本集中的文档需要具有相对稳定的版式,而且所处理的文档的版式应该已经在训练样本集中出现过,因此该方法的应用范围受到一定的限制。公开号为CN110969056A,公开日为2020.04.07的中国专利技术专利申请《文档图像的文档版面分析方法、装置及存储介质》,获取文档图像中待分析的文档版面,由于提取了该文档版面中的至少一个文字区块,并对该至少一个文字区块进行文字识别,得到至少一个文字区块对应的文字信息,因此,可以根据该至少一个文字区块对应的文字信息,确定该至少一个文字区块对应的至少一个主题信息,进而根据该至少一个主题信息,确定该文档版面的描述信息。该方法仍然存在如下问题:该方法主要是通过文档中一定数目的文字区块的文字内容,确定文字区块的主题信息以及文档版面的描述信息。但是该方法并未定位文档中关键字段的位置和内容,不能完成本专利技术针对的提前文档中关键字段信息的文档结构化任务。目前没有发现同本专利技术类似技术的说明或报道,也尚未收集到国内外类似的资料。
技术实现思路
本专利技术针对现有技术中存在的上述不足,提供了一种文档结构化方法、系统、终端及介质。根据本专利技术的一个方面,提供了一种文档结构化方法,包括:获取文档的文字区块以及文字字段;其中,所述文字区块包括位置框,所述文字字段包括位置框和文本内容;基于所述文字区块的位置框和文字字段的位置框,对所述文本内容进行排列;基于所述文本内容的排列结果,进行结构化信息提取;根据提取的结构化信息,建立结构化文档。优选地,所述文档包括图片文档和电子文档。优选地,所述获取文档的文字字段,包括:所述图片文档通过图像识别方法进行文字定位与识别,获取文字字段的文本内容和位置框;所述电子文档根据文件类型读取文件,获取文本内容和文本边界框;或,通过将电子文档转换为图片文档,再通过图像识别方法获取文字字段的文本内容和位置框。优选地,所述图像识别方法,包括:检测文档中的文字字段,获得位置框的顶点的坐标和位置框的旋转角度;在得到位置框的顶点的坐标和旋转角度后,调整得到水平的文字字段,从图像中截取出水平的文字字段部分图片,输入到用于识别文字的深度学习模型,得到文字字段中的文本内容。优选地,所述获取文档的文字区块,包括:将所述电子文档转换为图片文档;采用预训练的目标检测模型,以图片文档作为输入,输出文字区块的位置框。优选地,所述预训练的过程,包括:利用训练样本集和测试样本集训练用于文字区块目标检测的深度学习网络模型;计算深度学习网络模型检测文字区块的误差,根据误差反向输入到深度学习网络模型,调整深度学习网络模型的参数;利用训练样本集和测试样本集继续训练调整后的深度学习网络模型,直到深度学习网络模型的检测误差降低到设定程度,即完成对目标检测模型的训练。优选地,所述训练样本集和测试样本集中作为样本的文档均包括若干文字区块,并按照要求进行标注;其中,所述标注的文件中包括:每个文字区块在文档中的位置。优选地,所述基于所述文字区块的位置框和文字字段的位置框,对所述文本内容进行排列,包括:基于所述文字区块的位置框和文字字段的位置框,对所述文字区块和文字字段进行联合优化,得到改进的文字区块;将所述改进的文字区块内文字字段的文本内容排列为一串文字,获得文字区块所对应的文字串,完成对文本内容的排列。优选地,所述对文字区块和文字字段进行联合优化,包括:基于所述文字区块的位置框和文字字段的位置框,将所述文字字段本文档来自技高网
...

【技术保护点】
1.一种文档结构化方法,其特征在于,包括:/n获取文档的文字区块以及文字字段;其中,所述文字区块包括位置框,所述文字字段包括位置框和文本内容;/n基于所述文字区块的位置框和文字字段的位置框,对所述文本内容进行排列;/n基于所述文本内容的排列结果,进行结构化信息提取;/n根据提取的结构化信息,建立结构化文档。/n

【技术特征摘要】
1.一种文档结构化方法,其特征在于,包括:
获取文档的文字区块以及文字字段;其中,所述文字区块包括位置框,所述文字字段包括位置框和文本内容;
基于所述文字区块的位置框和文字字段的位置框,对所述文本内容进行排列;
基于所述文本内容的排列结果,进行结构化信息提取;
根据提取的结构化信息,建立结构化文档。


2.根据权利要求1所述的结合图像和文字识别的文档结构化方法,其特征在于,所述文档包括图片文档和电子文档。


3.根据权利要求2所述的结合图像和文字识别的文档结构化方法,其特征在于,所述获取文档的文字字段,包括:
所述图片文档通过图像识别方法进行文字定位与识别,获取文字字段的文本内容和位置框;
所述电子文档根据文件类型读取文件,获取文本内容和文本边界框;或,通过将电子文档转换为图片文档,再通过图像识别方法获取文字字段的文本内容和位置框。


4.根据权利要求3所述的结合图像和文字识别的文档结构化方法,其特征在于,所述图像识别方法,包括:
检测文档中的文字字段,获得位置框的顶点的坐标和位置框的旋转角度;
在得到位置框的顶点的坐标和旋转角度后,调整得到水平的文字字段,从图像中截取出水平的文字字段部分图片,输入到用于识别文字的深度学习模型,得到文字字段中的文本内容。


5.根据权利要求2所述的结合图像和文字识别的文档结构化方法,其特征在于,所述获取文档的文字区块,包括:
将所述电子文档转换为图片文档;
采用预训练的目标检测模型,以图片文档作为输入,输出文字区块的位置框。


6.根据权利要求5所述的结合图像和文字识别的文档结构化方法,其特征在于,所述预训练的过程,包括:
利用训练样本集和测试样本集训练用于文字区块目标检测的深度学习网络模型;
计算深度学习网络模型检测文字区块的误差,根据误差反向输入到深度学习网络模型,调整深度学习网络模型的参数;
利用训练样本集和测试样本集继续训练调整后的深度学习网络模型,直到深度学习网络模型的检测误差降低到设定程度,即完成对目标检测模型的训练。


7.根据权利要求6所述的结合图像和文字识别的文档结构化方法,其特征在于,所述训练样本集和测试样本集中作为样本的文档均包括若干文字区块,并按照要求进行标注;其中,所述标注的文件中包括:每个文字区块在文档中的位置。


8.根据权利要求1所述的结合图像和文字识别的文档结构化方法,其特征在于,所述基于所述文字区块的位置框和文字字段的位置框,对所述文本内容进行排列,包括:
基于所述文字区块的位置框和文字字段的位置框,对所述文字区块和文字字段进行联合优化,得到改进的文字区块;
将所述改进的文字区块内文字字段的文本内容排列为一串文字,获得文字区块所对应的文字串,完成对文本内容的排列。


9.根据权利要求8所述的结合图像和文字识别的文档结构化方法,其特征在于...

【专利技术属性】
技术研发人员:周异周曲韦建何建华
申请(专利权)人:上海深杳智能科技有限公司厦门商集网络科技有限责任公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1