【技术实现步骤摘要】
表格重建方法、装置、电子设备及存储介质
本申请涉及自动化
,特别是涉及文本处理自动化
,具体为一种表格重建方法、装置、电子设备及存储介质。
技术介绍
随着社会经济的发展和中国城镇化的推进,越来越多的人进入城市就业,越来越多的公司诞生;同时随着互联网技术的发展,电子交易,数字交易已经普及;对于公司、银行、证卷交易产生越来越多的财务表格单据及信息。传统的财务报行;速度慢、效率底,很难满足越来越多的表格单据信息的识别、入库及自动校对。在国家智慧金融及人工智能相关政策的指引下,越来越多的金融机构和科技公司开始针对财务表格单据进行相应的投入和研究。而其中有些情况需要针对财务表格单据进行表格重建,但是有一些财务单据存在无表格,表无框线、虚线框、表格线质量较差情况下,这为表格重建及识别带来很大困难。如何快速的根据现有财务单据重构相应的财务表格成为本领域技术人员亟待解决的技术问题。申请内容鉴于以上所述现有技术的缺点,本申请的目的在于提供表格重建方法、装置、电子设备及存储介质,用于解决现有技术中无法有效进行 ...
【技术保护点】
1.一种表格重建方法,其特征在于,包括:/n获取待处理表格图像并对获取的所述待处理表格图像进行预处理,形成初始表格图像;/n获取所述初始表格图像中的字符高度,并根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像;/n检测所述初始表格图像中的表格区域并定位所述表格区域中的字符串位置;/n根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数,并构建对应行数、列数的重构表格;/n根据所述字符串位置识别所述初始表格图像中的对应字符串,并将识别的所述字符串填入对应的所述重构表格。/n
【技术特征摘要】
1.一种表格重建方法,其特征在于,包括:
获取待处理表格图像并对获取的所述待处理表格图像进行预处理,形成初始表格图像;
获取所述初始表格图像中的字符高度,并根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像;
检测所述初始表格图像中的表格区域并定位所述表格区域中的字符串位置;
根据所述表格区域、所述字符串位置以及所述二值化图像确定表格的行数和列数,并构建对应行数、列数的重构表格;
根据所述字符串位置识别所述初始表格图像中的对应字符串,并将识别的所述字符串填入对应的所述重构表格。
2.根据权利要求1所述的表格重建方法,其特征在于,所述获取所述初始表格图像中的字符高度的一种实现方式包括:
对所述初始表格图像进行自适应二值化处理形成第一图像;
获取所述第一图像中的字符连通区域,并计算所述字符连通区域中的字符高度;
根据所述初始表格图像的缩放比例和所述字符连通区域中的字符高度确定所述初始表格图像中的字符高度。
3.根据权利要求2所述的表格重建方法,其特征在于,所述表格重建方法还包括:
根据获取的所述初始表格图像中的字符高度和预设高度阈值判断所述初始表格图像是否可以缩放,若是,则将所述初始表格图像进行缩放,形成缩放图像。
4.根据权利要求3所述的表格重建方法,其特征在于,所述表格重建方法还包括:
根据红章特征和表格线灰度图特征识别并去除所述缩放图像中的红章,生成去章图像;
对所述去章图像进行灰度变换,生成单通道图像。
5.根据权利要求4所述的表格重建方法,其特征在于,所述根据所述字符高度和预设的二值化阈值获取所述初始表格图像对应的二值化图像的一种实现方式包括:
根据所述字符高度构造匹配的水平结构元素和竖直结构元素;
根据构造的所述水平结构元素和所述竖直结构元素对所述单通道图像进行卷积处理以增强所述单通道图像中的表格线;
根据所述字符高度设置自适应二值化函数的核尺寸;
根据二值化函数和预设的二值化阈值获取所述单...
【专利技术属性】
技术研发人员:周康明,王庆峰,
申请(专利权)人:上海眼控科技股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。