【技术实现步骤摘要】
本专利技术涉及计算机视觉领域,特别是涉及一种面向异构文档图片的表格解析方法及设备。
技术介绍
1、表格的定义从狭义上说,一般称印有横竖线组成封闭矩形框架结构,并配有简单文字说明以指示信息填入的页面为表格。从广义上说,凡是引导人们填入某类信息的页面都称为表格。表格的特点是数据高度结构化,并且按照一定的逻辑表达信息。而表格解析通常是指在文档、图像或其他数据源中识别和提取表格的过程。在日常生活中,人们一般先用处理表格的工具显示表格数据,再进行信息提取等操作。这种人工进行表格识别的方式,带来了一些问题:
2、(1)因为表格数量众多,类型繁多复杂,人工对数据进行更新的过程中,可能会在不同的表格中写入相同的内容,或者有些单元格里的内容没有得到更新。一旦产生错误,使用人力查找错误的时间非常有限。因此人工处理表格数据往往会造成表格内容错误、信息不一致等问题,这种错误和不一致可能会有损公司声誉,甚至带来经济的损失。
3、(2)人工提取表格信息是一个繁琐而耗时的过程,公司为此需要投入大量人员同时进行这项工作,最后产生了额外的花销。<
...【技术保护点】
1.一种面向异构文档图片的表格解析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种面向异构文档图片的表格解析方法,其特征在于,所述表格检测算法提取表格的四个顶点坐标的步骤为:
3.根据权利要求1或权利要求2所述的一种面向异构文档图片的表格解析方法,其特征在于,所述CornerNet-lo的区域提案生成模块的损失函数LCornerNet为:LCornerNet=Ldet+αLpull+βLpush+γLoff;其中,Ldet是一种焦点变换损失函数,用于分类任务;Loff是一种smoothL1Loss函数,用于回归任务;Lpull是训
...【技术特征摘要】
1.一种面向异构文档图片的表格解析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种面向异构文档图片的表格解析方法,其特征在于,所述表格检测算法提取表格的四个顶点坐标的步骤为:
3.根据权利要求1或权利要求2所述的一种面向异构文档图片的表格解析方法,其特征在于,所述cornernet-lo的区域提案生成模块的损失函数lcornernet为:lcornernet=ldet+αlpull+βlpush+γloff;其中,ldet是一种焦点变换损失函数,用于分类任务;loff是一种smoothl1loss函数,用于回归任务;lpull是训练网络对顶点进行分组的损失函数;lpush用于分离顶点的损失函数;α、β和γ分别是lpull,lpush,loff的权重;
4.根据权利要求1所述的一种面向异构文档图...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。