一种对多文档图像分割的方法及介质技术

技术编号:25600101 阅读:28 留言:0更新日期:2020-09-11 23:57
本发明专利技术提供了一种对多文档图像分割的方法及介质,包括:图像分割步骤:对待处理文档图像进行分割,得到分割结果;分割结果审查步骤:对分割结果进行分割结果审查;所述分割结果审查包括机器审查,通过机器对分割结果进行审查,得到审查结果,并根据所述审查结果判定分割结果是否符合预设要求。本发明专利技术能有效提高文档图像多文档切分的准确度和处理速度,降低了人工参与和系统运维成本。

【技术实现步骤摘要】
一种对多文档图像分割的方法及介质
本专利技术涉及文档处理
,具体地,涉及一种对多文档图像分割的方法及介质。
技术介绍
随着近几年来人工智能尤其是深度学习技术的快速发展,从文档图像中定位和识别文字的应用在准确度方面得到了非常大的提高,从而极大地推动了文档图像文字处理应用的自动化,在很多商业领域(比如财务报销和银行对账)已经取得一定的成功,具有巨大的商业潜力。但是这些应用系统面临一个文档切分的主要技术问题。用户在将纸张的文档(比如出租车票据/购物帐单等)转换成数字图像时,通常会将多张文档不规则地放在一起进行扫描或者拍照。这样得到的数字文档图像中通常包含多张独立的文档,不能直接输入给现有的基于深度学习的图像文档文字检测/识别处理系统进行处理。因此一个实际的图像文档处理系统必须要完成一个切分的任务,也即将单张图像中包含的单个的文档切割分离(切分)处理,并且可选地将单个的文档的方向调整为正常的方向和对每个单个的文档进行分类,使得每个单个的文档能够被图像文档检测/识别处理系统进行处理。多文档图像切分是很多实际文档处理系统中很重要的一个环节。传统的文档切分方法,主要是采用人工进行切分,或者通过提取边缘对文档进行切分。人工切分的方法,成本高,系统处理容量有限,阻碍了实现文档处理系统的全自动化。提取边缘的文档切分方法的系统流程参见图1。这种方法可以通过机器实现,从而实现系统的全自动化。但是提取边缘的切分方法也有很多的不足,包括不够稳健(有些单个文档的边缘不清晰寻找不到正确/完整的边缘)、方法复杂(即使寻找到边缘后也还需要将边缘正确地匹配到单个文档上)、容易出错(包括边缘提取错误和边缘匹配错误等)、不能对单个文档进行调整和分类等问题。因此基于边缘提取的切分方法在切分准确度方面很难满足实际商业应用的要求。针对提取边缘的多文档图像切分方法存在的问题,我们提出了一种新颖的文档切分方案,采用图像目标分割技术切割出单个的文档。该方案将不同的单个的文档直接作为待检测和分割的目标,利用传统方法或者深度学习技术来做目标检测和分割,从而有效提高多文档切分方法的速度和准确度等问题。基于图像目标分割技术的切分方法取得了很高的准确度,但是基于纯机器的图像目标分割技术的切分方法本身还存在准确度性能以及不能从低质量的图像有效切割文档等问题,对于很多具有高准确度要求的商业应用(比如很多金融财务和税务等业务要求99%以上的准确度),该方法还达不到应用的要求。另外,多文档图像切分任务处于整个文档处理系统的上游,一旦文档切分出现问题(比如图像中包含的文档里面有文档未被检测到,或者有文档被检测到但是部分内容没有被正确地包含到检测框里面),将对后面的文字检测与识别任务造成非常大甚至无法逆转的影响。专利文献CN1687969A(申请号:200510011706.9)公开了基于文档图像内容分析与特征提取的文档图像压缩方法,它由文档图像预处理、文档图像分割、文字压缩和图像压缩步骤组成:其文档图像预处理对文档图像的灰度值进行统计并向图像边界投影,根据投影曲线边沿变化和灰度直方图分析文档图像内容并自动检测和提取出文档图像的特征信息,包括文字高度、图像边界和文档附带的标记的位置信息、象素灰度值信息等;文档图像分割根据文档图像预处理的结果,将文档图像分割成文字部分和图像部分且其颜色信息不受影响;文字压缩对分割出的文字部分进行灰度变换和行程编码予以压缩;图像压缩对分割出的图像部分进行基于离散余弦变换的有损压缩。相比较传统的人工文档切分和纯基于机器切分的方法,本专利技术可以有效地解决现有方法中存在的主要问题,大幅度提高图像文档切分的速度、准确度、稳定度和可靠度,从而极大地提高文档处理系统的自动化程度,降低文档处理系统的成本,利于增加文档处理系统的规模并支持更多的用户。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种对多文档图像分割的方法及介质。根据本专利技术提供的对多文档图像分割的方法,包括:图像分割步骤:对待处理文档图像进行分割,得到分割结果;分割结果审查步骤:对分割结果进行分割结果审查;所述分割结果审查包括机器审查,通过机器对分割结果进行审查,得到审查结果,并根据所述审查结果判定分割结果是否符合预设要求。优选的,所述机器审查包括如下任一种或任多种审查方式,包括:置信度机器审查:根据深度学习模型输出的置信度信息进行机器审查;多模型机器审查:利用多个预训练的深度学习模型进行机器审查;文本检测机器审查:基于文本检测结果进行机器审查。优选的,所述置信度机器审查包括:根据深度学习模型输出的置信度信息所包含的单个文档分割的置信度,计算出文档图像分割的综合置信度;将文档图像分割的综合置信度与预先设置的阈值进行比较,确定机器分割结果是否正确。优选的,所述多模型机器审查包括:利用多个预训练的深度学习模型,分别对待处理文档图像进行分割,得到各自的文档分割输出结果;然后根据全部文档分割输出结果计算得到文档图像分割的综合置信度,将文档图像分割的综合置信度与预先设置的阈值进行比较,确定机器分割结果是否正确;所述多个预训练的深度学习模型包括:具有不同深度的、不同网络结构的深度学习模型,其中,所述多个预训练的深度学习模型之间的训练数据集相同、均不同或者部分不同。优选的,所述文本检测机器审查包括:对所述待处理文档图像进行分割,得到一个或多个的单个文档,并得到各个文档的轮廓作为分割结果;所述文本检测机器审查,还包括:--基于机器对待处理文档图像中的文字进行检测,得到文字定位信息,根据所述文字定位信息判断对应的文字是否位于文档的轮廓中,若位于,则判定分割结果正确;否则,则判定分割结果错误;--基于机器对待处理文档图像中的文字进行检测,得到文字信息,判断所述文字信息与文档轮廓相应位置处的文字是否一致;若一致,则判定分割结果正确;否则,则判定分割结果错误。优选的,所述置信度的计算包括:通过预训练的深度学习模型分割多文档图像得到的每个单个文档的目标置信度和/或定位置信度,根据单个文档的目标置信度和/或定位置信度,计算整个多文档图像分割的置信度;通过深度学习模型对多文档图像进行分割,得到N个单个文档,深度学习输出每个文档对应的目标置信度On和定位置信度Ln,第n个单个文档的置信度为Cn,公式为:Cn=min(On,Ln);其中,min(x,y)函数计算x和y之间的最小值;n=1,2,…,N;计算整个多文档图像的置信度C,表达式为:C=min(C1,C2,…,Cn,…,CN),n=1,2,…,N。优选的,对置信度机器审查、多模型机器审查和文本检测机器审查这三种机器审查方式进行两两联合进行机器审查,或者将这三种机器审查方式进行整体联合进行机器审查。优选的,所述文档分割步骤包括:采用有监督的基于卷积神经网络的深度学习模型,先对深度学习模型进行训练,再从待处理文档图像中分割出单个文档;所述文档审查包括人工审查,在待处理本文档来自技高网
...

【技术保护点】
1.一种对多文档图像分割的方法,其特征在于,包括:/n图像分割步骤:对待处理文档图像进行分割,得到分割结果;/n分割结果审查步骤:对分割结果进行分割结果审查;/n所述分割结果审查包括机器审查,通过机器对分割结果进行审查,得到审查结果,并根据所述审查结果判定分割结果是否符合预设要求。/n

【技术特征摘要】
1.一种对多文档图像分割的方法,其特征在于,包括:
图像分割步骤:对待处理文档图像进行分割,得到分割结果;
分割结果审查步骤:对分割结果进行分割结果审查;
所述分割结果审查包括机器审查,通过机器对分割结果进行审查,得到审查结果,并根据所述审查结果判定分割结果是否符合预设要求。


2.根据权利要求1所述的对多文档图像分割的方法,其特征在于,所述机器审查包括如下任一种或任多种审查方式,包括:
置信度机器审查:根据深度学习模型输出的置信度信息进行机器审查;
多模型机器审查:利用多个预训练的深度学习模型进行机器审查;
文本检测机器审查:基于文本检测结果进行机器审查。


3.根据权利要求2所述的对多文档图像分割的方法,其特征在于,所述置信度机器审查包括:根据深度学习模型输出的置信度信息所包含的单个文档分割的置信度,计算出文档图像分割的综合置信度;将文档图像分割的综合置信度与预先设置的阈值进行比较,确定机器分割结果是否正确。


4.根据权利要求2所述的对多文档图像分割的方法,其特征在于,所述多模型机器审查包括:利用多个预训练的深度学习模型,分别对待处理文档图像进行分割,得到各自的文档分割输出结果;然后根据全部文档分割输出结果计算得到文档图像分割的综合置信度,将文档图像分割的综合置信度与预先设置的阈值进行比较,确定机器分割结果是否正确;
所述多个预训练的深度学习模型包括:具有不同深度的、不同网络结构的深度学习模型,其中,所述多个预训练的深度学习模型之间的训练数据集相同、均不同或者部分不同。


5.根据权利要求2所述的对多文档图像分割的方法,其特征在于,所述文本检测机器审查包括:
对所述待处理文档图像进行分割,得到一个或多个的单个文档,并得到各个文档的轮廓作为分割结果;
所述文本检测机器审查,还包括:
--基于机器对待处理文档图像中的文字进行检测,得到文字定位信息,根据所述文字定位信息判断对应的文字是否位于文档的轮廓中,若位于,则判定分割结果正确;否则,则判定分割结果错误;
--基于机器对待处理文档图像中的文字进行检测,得到文字信息,判断所述文字信息与文档轮廓相应位置处的文字是否一致;若一致,则判定分割结果正确;否则,则判定分割结果错误。


6.根据权利要求3所述的对多文档图像分割的方法,其特征在于,所述置...

【专利技术属性】
技术研发人员:周曲周异陈凯何建华
申请(专利权)人:上海深杳智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1