【技术实现步骤摘要】
多类别文本检测系统和基于该系统的票据表单检测方法
本专利技术涉及智能检测
,具体涉及一种多类别文本检测系统和基于该系统的票据表单检测方法。
技术介绍
文本识别是一个历史悠久的问题,随着深度学习的兴起,多数相关任务已经被很好地解决。然而有一类特殊的数据,其文本是根据语义信息有机的组合在一起,称之为票据表单样数据,需要从视觉以及语义的层面将需要的信息提取出来。票据以及表单样数据在日常生活中扮演了重要的角色,作为会计原始凭证之一,是记录经济活动内容的载体,也是财务管理的重要工具。表单样数据种类繁多,形式各异,大致可以分为票据类数据和表格类数据。对于票据类数据,最常见的如增值税发票、出租车票、购买凭证等,这一类数据具有一定的模板,但不同类别的票据模板差异大;而对于表格类数据,如销售统计表、购货清单等,完全没有模板可言,需要依靠高层的语义信息进行关键信息定位。对于基于图像的文本检测模型,图像中的内容有两个维度:一个是文本的位置和内容信息,另一个是语义信息,需要根据位置及内容判断。针对票据的检测可以看作是物体检测与 ...
【技术保护点】
1.一种多类别文本检测系统,其特征在于,包括:/n图像获取模块,用于获取待检测票据表单的图像;/n特征提取模块,用于提取待检测票据表单图像的多尺度特征;/n金字塔桥接模块,用于将特征提取模块提取的多尺度特征进行融合并传递给解码模块;/n以及解码模块,用于将融合特征通过三个分支解码分别生成分类图、中心点热力图和距离图。/n
【技术特征摘要】
1.一种多类别文本检测系统,其特征在于,包括:
图像获取模块,用于获取待检测票据表单的图像;
特征提取模块,用于提取待检测票据表单图像的多尺度特征;
金字塔桥接模块,用于将特征提取模块提取的多尺度特征进行融合并传递给解码模块;
以及解码模块,用于将融合特征通过三个分支解码分别生成分类图、中心点热力图和距离图。
2.如权利要求1所述的多类别文本检测系统,其特征在于:所述特征提取模块包括输入层和连接输入层的依次串接的四个残差块,每个残差块包括多个具有残差连接的卷积层和池化层,用于将前一级输出的特征图的尺寸降低一倍。
3.如权利要求2所述的多类别文本检测系统,其特征在于:所述金字塔桥接模块包括分别连接所述残差块的通道注意力单元,用于特征信息重组;连接所述通道注意力单元的堆叠单元,用于堆叠通道注意力单元输出的通道维度;以及连接所述堆叠单元的融合单元,用于融合堆叠后的通道维度。
4.如权利要求3所述的多类别文本检测系统,其特征在于:所述通道注意力单元包括亚像素卷积上采样层和通道维度注意力层。
5.如权利要求3或4所述的多类别文本检测系统,其特征在于:所述解码模块包括分别连接所述融合单元的分类卷积单元、中心点卷积单元和距离卷积单元,分别用于生成分类图、中心点热力图和距离图。
6.一种基于权利要求1-5任一项所述多类别文本检测系统的票据表单检测方法,其特征在于,包括如下步骤:
S1、将经过预处理的票...
【专利技术属性】
技术研发人员:魏金岭,王剑强,丁续旭,孙怡,王昌胜,魏弋力,
申请(专利权)人:浙江大学城市学院,杭州盈兰信息科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。