一种用于海关报表的动态模板生成报表的方法及其装置制造方法及图纸

技术编号:24251983 阅读:19 留言:0更新日期:2020-05-22 23:48
本发明专利技术提供一种用于海关报表的动态模板生成报表的方法及其装置,包括:输入的原始文件,获得单页的通关单证图像,根据单证图像,图像中的文字和字符进行识别,将字符识别结果和通关单证图像输入分类模块,根据预先存储的海关报表基础模板,进行初步模板分类,结合识别出的文字信息和位置,对模板进行动态调整,比对文字识别信息、模板信息、以及关联单证关键词,根据匹配的基础模板,调整文字、字符后输出识别结果。优点在于,利用模板动态调整的方式,优化通关原始文件的文档理解流程,并结合前后页内容的上下文校验,更精确的输出所期望的识别结果,形成完整的申报文件,有效的提高了最终输出结果的精确度,大量节约报关申报流程中的人力成本。

A method and device of dynamic template generating report for customs Report

【技术实现步骤摘要】
一种用于海关报表的动态模板生成报表的方法及其装置
本专利技术涉及一种图像识别和文本处理领域,尤其是一种用于海关报表的动态模板生成报表的方法及其装置。
技术介绍
图像处理中的文档理解技术,是指通过将文件转换为图像的形式,通过对文档图像中的版面分析、文字位置、字符识别内容等信息的综合处理和分析,将该图像中所包含的各类信息抽取组织为json或XML等结构化数据的过程。理解一张图像中的内容并转换为结构化的数据,有助于将纸质或图像等形式存在的文档进行电子化,并为后续的数据整理、大数据分析提供帮助。在报关行业,报关人员填写申报文件,需要对一份通关原始文件中的发票、运单、装箱单、销售合同等文件进行查验比对,提取出需要申报的各项商品信息及其数量金额,还有各类物流装箱信息等内容。各份文件相互比对校验无误后,手工输入电子报关系统或者手工填写纸质申报文件,并经过多个流程的核验,确认内容合规无误后再进行申报。这个过程中,涉及到很多的前后数据比对校验及手工输入过程。现有的电子报关系统或手工填写,具有无法理解发票扫描件,进行自动化货物进出口填报,录入和前后校验的时间长等问题。
技术实现思路
为实现报关文件一体化,减少录入和校验的时间,提高报关效率,本专利技术提供一种用于海关报表的动态模板生成报表的方法及其装置,具体如下:一种用于海关报表的动态模板生成报表的方法:步骤1.输入的原始文件,获得单页的通关单证图像,步骤2.根据单证图像,图像中的文字和字符进行识别,步骤3.将字符识别结果和通关单证图像输入分类模块,根据预先存储的海关报表基础模板,进行初步模板分类;步骤4.结合识别出的文字信息和位置,对模板进行动态调整,动态调整包括以下步骤:A.将通关单证图像划分为多个感兴趣区域与基础模板进行模板比对,根据单个感兴趣区域的文字、字符内容与基础模板内对应区域关键词进行内容比对,判断通关单证最相近的基础模板,B.若未在图像及字符中发现匹配的关键词,扩大感兴趣区域边界并调整各个区域间的相对位置,对字符进行语义分析,判断是否为关键词的近义词,C.若根据感兴趣区域内内容及其位置与模板匹配,则缩小感兴趣区域,排除误分入的无关内容,D.根据所述基础模板及其在整套海关报表中的关联关系,对多个关联单证中相同关键字数据根据关联性进行比对,步骤5.比对文字识别信息、模板信息、以及关联单证关键词,根据三者识别结果是否一致,若三者一致则根据匹配的基础模板,调整文字、字符后输出识别结果,否则返回步骤4,继续进行模板的动态调整。进一步的,在上述技术方案的基础上,所述步骤4的步骤A所述图像、文字及字符比对,是根据所有的特征参数找出最为相近的一个模板,并将模板中的感兴趣区域根据图像比例和特征点相对位置映射到输入的单证图像中,比较所有文本信息特征向量编码与基础模板的相似度,且对相似的文本所对应区域及区域间的相对位置关系与基础模板比对,相似度要求达到70%以上的阈值。进一步的,在上述技术方案的基础上,所述步骤4所述关键词是发票信息和/或商品信息。进一步的,在上述技术方案的基础上,所述发票信息包括发票名称、金额、票据主体、发票单号、发票日期以及商品名称。进一步的,在上述技术方案的基础上,所述商品信息包括商品名称、商品单价、商品数量以及商品产地。进一步的,在上述技术方案的基础上,所述步骤5中输出结果,是指将输出的识别结果进行格式化,根据各感兴趣区域的字段名和识别结果,根据基础模板组织为申报文件格式。进一步的,在上述技术方案的基础上,所述申报文件格式是json格式。一种针对用于海关报表的动态模板生成报表的方法的装置,包括图像输入模块、图像处理模块、文字识别模块、字符识别模块、存储模块、中央处理模块和输出模块,所述图像输入模块用于获取通关单证图像信息并向图像处理模块传输,所述图像处理模块用于对通关单证图像信息进行格式化调整,并将处理后信息向文字识别模块、字符识别模块和中央处理模块传输,所述文字识别模块用于识别通关单证图像中的文字信息,并将处理后信息向中央处理模块传输,所述字符识别模块用于识别通关单证图像中的字符信息,并将处理后信息向中央处理模块传输,所述存储模块用于预存海关报表基础模板,所述中央处理模块用于根据图像处理模块、文字识别模块和字符识别模块信息与基础模块进行比对,并根据比对结果生成申报表格信息,传输给输出模块,所述输出模块用于根据中央处理模块生成的申报表格信息输出文本。本专利技术的优点在于,利用模板动态调整的方式,优化通关原始文件的文档理解流程,并结合前后页内容的上下文校验,更精确的输出所期望的识别结果,形成完整的申报文件,有效的提高了最终输出结果的精确度,大量节约报关申报流程中的人力成本。附图说明1.图1是本专利技术所述方法步骤图;2.图2是本专利技术所述方法图像信息示意图一;3.图3是本专利技术所述方法图像信息示意图二;4.图4是本专利技术所述方法图像信息示意图三;5.图5是本专利技术所述装置模块示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。如图1所示,一种用于海关报表的动态模板生成报表的方法:步骤1.输入的原始文件,获得单页的通关单证图像,步骤2.根据单证图像,图像中的文字和字符进行识别,步骤3.将字符识别结果和通关单证图像输入分类模块,根据预先存储的海关报表基础模板,进行初步模板分类;步骤4.结合识别出的文字信息和位置,对模板进行动态调整,动态调整包括以下步骤:A.将通关单证图像划分为多个感兴趣区域与基础模板进行模板比对,根据单个感兴趣区域的文字、字符内容与基础模板内对应区域关键词进行内容比对,判断通关单证最相近的基础模板,B.若未在图像及字符中发现匹配的关键词,扩大感兴趣区域边界并调整各个区域间的相对位置,对字符进行语义分析,判断是否为关键词的近义词,C.若根据感兴趣区域内内容及其位置与模板匹配,则缩小感兴趣区域,排除误分入的无关内容,D.根据所述基础模板及其在整套海关报表中的关联关系,对多个关联单证中相同关键字数据根据关联性进行比对,步骤5.比对文字识别信息、模板信息、以及关联单证关键词,根据三者识别结果是否一致,若三者一致则根据匹配的基础模板,调整文字、字符后输出识别结果,否则返回步骤4,继续进行模板的动态调整。结合图2、图3、图4,其中图2是基础模板,图3是图像获取单证信息,根据步骤4的步骤A对图3中所述图像、文字及字符比对后,所有的特征参数找出最为相近的图3中的模板A,并将模板A中的感兴趣区域根据图像比例和特征点相对位置映射到输入的图2单证A的图像中,比较所有文本信息特征向量编码与基础模板的相似度,且对相似的文本所对应区域及区域间的相对位置关系与基础模本文档来自技高网...

【技术保护点】
1.一种用于海关报表的动态模板生成报表的方法:/n步骤1.输入的原始文件,获得单页的通关单证图像,/n步骤2.根据单证图像,图像中的文字和字符进行识别,/n步骤3.将字符识别结果和通关单证图像输入分类模块,根据预先存储的海关报表基础模板,进行初步模板分类,/n步骤4.结合识别出的文字信息和位置,对模板进行动态调整,动态调整包括以下步骤:/nA.将通关单证图像划分为多个感兴趣区域与基础模板进行模板比对,根据单个感兴趣区域的文字、字符内容与基础模板内对应区域关键词进行内容比对,判断通关单证最相近的基础模板,/nB.若未在图像及字符中发现匹配的关键词,扩大感兴趣区域边界并调整各个区域间的相对位置,对字符进行语义分析,判断是否为关键词的近义词,/nC.若根据感兴趣区域内内容及其位置与模板匹配,则缩小感兴趣区域,排除误分入的无关内容,/nD.根据所述基础模板及其在整套海关报表中的关联关系,对多个关联单证中相同关键字数据根据关联性进行比对,/n步骤5.比对文字识别信息、模板信息、以及关联单证关键词,根据三者识别结果是否一致,若三者一致则根据匹配的基础模板,调整文字、字符后输出识别结果,否则返回步骤4,继续进行模板的动态调整。/n...

【技术特征摘要】
1.一种用于海关报表的动态模板生成报表的方法:
步骤1.输入的原始文件,获得单页的通关单证图像,
步骤2.根据单证图像,图像中的文字和字符进行识别,
步骤3.将字符识别结果和通关单证图像输入分类模块,根据预先存储的海关报表基础模板,进行初步模板分类,
步骤4.结合识别出的文字信息和位置,对模板进行动态调整,动态调整包括以下步骤:
A.将通关单证图像划分为多个感兴趣区域与基础模板进行模板比对,根据单个感兴趣区域的文字、字符内容与基础模板内对应区域关键词进行内容比对,判断通关单证最相近的基础模板,
B.若未在图像及字符中发现匹配的关键词,扩大感兴趣区域边界并调整各个区域间的相对位置,对字符进行语义分析,判断是否为关键词的近义词,
C.若根据感兴趣区域内内容及其位置与模板匹配,则缩小感兴趣区域,排除误分入的无关内容,
D.根据所述基础模板及其在整套海关报表中的关联关系,对多个关联单证中相同关键字数据根据关联性进行比对,
步骤5.比对文字识别信息、模板信息、以及关联单证关键词,根据三者识别结果是否一致,若三者一致则根据匹配的基础模板,调整文字、字符后输出识别结果,否则返回步骤4,继续进行模板的动态调整。


2.根据权利要求1所述的一种用于海关报表的动态模板生成报表的方法,其特征在于:所述步骤4的步骤A所述图像、文字及字符比对,是根据所有的特征参数找出最为相近的一个模板,并将模板中的感兴趣区域根据图像比例和特征点相对位置映射到输入的单证图像中,比较所有文本信息特征向量编码与基础模板的相似度,且对相似的文本所对应区域及区域间的相对位置关系与基础模板比对,相似度要求达到70%以上的阈值。


3.根据权利要求1所述的一种用于海关报表的动态模板生成报表的方法,其特征在...

【专利技术属性】
技术研发人员:孔昱周广庆郑莹斌叶浩张东峰陆欢旺
申请(专利权)人:上海三稻智能科技有限公司上海兑观信息科技技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1