【技术实现步骤摘要】
一种基于双通路混合卷积网络的文档对象分类方法
本专利技术涉及文档对象检测识别领域,特别涉及一种基于双通路混合卷积网络的文档对象分类方法。
技术介绍
随着近几年机器学习和深度学习的蓬勃发展,文档图片理解(DocumentImageUnderstanding,DIU)技术得到了越来越多人的关注。文档图片理解,顾名思义,就是从文档图片中理解其内容。文档图片理解具体可分为页面分割(也叫区域分割),区域分类(也叫块标记)和文档对象识别等步骤,其中本专利技术就对应前两个步骤,即文档对象检测和识别。目前的页面分割技术从步骤上可以分为两种,一种是基于像素处理的方法,即根据图片中的像素的分布情况制定一系列的规则分割不同的区域块,具体有投影分析,RLSA(RunLengthSmoothingAlgorithm,游程平滑算法)分析(CesariniF,LastriM,MarinaiS,etal.EncodingofModifiedX-YTreesforDocumentClassification[C]//2001.),空白分析,连通域提取 ...
【技术保护点】
1.一种基于双通路混合卷积网络的文档对象分类方法,其特征在于,分为模型训练和模型调用两个内容,其中模型调用省略了模型训练的一部分步骤,包括如下步骤,该步骤默认为模型训练:/n步骤1,对输入图片进行多模式匹配递归RLSA分析确定分割坐标;/n步骤2,根据步骤1的分割坐标把输入彩色图片分割为一个个包含不同逻辑对象的区域图片,如果是模型调用则直接把区域图片传送到步骤6的双通路混合分类网络进行作为输入;/n步骤3,根据数据集注释对区域进行标签标记,并进行去除噪声和均衡处理,得到包含区域图片的分类数据集,如果是模型调用则忽略此步骤;/n步骤4,把处理好的数据集的二维彩色区域图片送入到 ...
【技术特征摘要】
1.一种基于双通路混合卷积网络的文档对象分类方法,其特征在于,分为模型训练和模型调用两个内容,其中模型调用省略了模型训练的一部分步骤,包括如下步骤,该步骤默认为模型训练:
步骤1,对输入图片进行多模式匹配递归RLSA分析确定分割坐标;
步骤2,根据步骤1的分割坐标把输入彩色图片分割为一个个包含不同逻辑对象的区域图片,如果是模型调用则直接把区域图片传送到步骤6的双通路混合分类网络进行作为输入;
步骤3,根据数据集注释对区域进行标签标记,并进行去除噪声和均衡处理,得到包含区域图片的分类数据集,如果是模型调用则忽略此步骤;
步骤4,把处理好的数据集的二维彩色区域图片送入到二维CNN中进行训练,保存训练数据,作为双通路混合分类网络的二维特征提取器,如果是模型调用则忽略此步骤;
步骤5,把二维图片提取其两方向投影,合并为一维数据送入到一维CNN网络进行训练,保存训练数据,作为双通路混合分类网络的一维特征提取器,如果是模型调用则忽略此步骤;
步骤6,利用步骤5和6中训练的卷积网络模型的前七层作为特征提取器,把提取到的特征数据作为双通路分类网络的输入,组成双通路混合分类网络,对该网络进行最后的分类训练,保存训练数据,得到最终的训练模型。
2.根据权利要求1所述的步骤1所述的方法,其特征在于,对投影数据进行三值化,表示三个不同的状态,且根据这些状态辨别不同的情况实行不同的分割规则,包括如下子步骤:
步骤1-1,对原始图片对图片灰度化,二值化处理,并用该图片的对角线的坐标初始化区域坐标库,这时坐标库中只有一个区域,就是原始图片;
步骤1-2,依次按照坐标库载入区域图片作为输入图片,对输入图片进行水平方向上的投影和分割,具体可分为如下步骤;
步骤1-2-1,统计水平方向上的黑色像素点数量,根据黑像素数目分布的不同分成三个等级,分别用0,1,2表示,其中0表示空白或者接近空白,1代表有少量黑像素分布,2代表有大量黑像素分布,把统计结果保存到一个一维数组中;
步骤1-2-2,从头遍历数组,根据数组中每个值的不同等级,分为三个状态,用sta0,sta1,sta2表示,对应步骤1-2-1中的三个等级,而处于sta1或sta2,又可表示为stab,表示黑色状态,又根据不同状态之间的跳变确定每个状态维持的长度,分别记为sta0_h,sta2_h,stab_h,具体分为以下几种规则,其中min_cut_blank代表最小分界空白高度,min_txt代表最小文本行高度,max_contian_blank表示最大包含空白高度,formula_line表示公式线高度:
1)两个分割点之间的stab_h确定为黑色块;
2)数组的开始和结束且处于stab状态,自动作为分割点;
3)如果sta0_h>min_cut_blank,则直接标记相邻的stab为分割点;
4)如果sta2_h<=formula_line,且两边的sta0_h<=max_contian_blank,则识别为公式结构,与前后的已确定分割点的黑色块进行融合;
5)如果stab_h>min_txt,且与其相邻的sta0_h>max_contian_blank,则直接把该状态两端stab标记为可分割,此块为黑色块;
6)如果stab_h>min_txt,且两端存在sta0_h<=max_contian_blank,则匹配为父结构,与满足条件一端的子结构进行融合,否则该端的stab标记为分割点;
7)如果stab_h<=min_txt,且两端存在sta0_h<=max_contia...
【专利技术属性】
技术研发人员:张盛峰,田朝阳,黄胜,贾艳秋,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。