一种自适应的智能单据识别录入装置及其使用方法制造方法及图纸

技术编号:21274041 阅读:36 留言:0更新日期:2019-06-06 08:15
发明专利技术属于图像识别处理领域,涉及一种自适应的智能单据识别录入装置及其使用方法,数据采集模块将客户的纸质文本通过扫描或者拍摄,采集成图片文件,预处理模块会利用形态学处理算法,对图像中的文本做分块处理,将每行或者表格中的格子做成不等的小区块,文字识别模块将各个小区块通过二值处理;然后相关性分析模块根据预先配置的关键字及规则,对文本块的关系做分析,并指导数据抽取模块对需要的字段内容做提取,纠偏模块会根据先前的识别及纠偏历史数据,对提取的内容做一些校验和自动纠正,最终保存结果,并返回数据到调用方。其设计构思巧妙,使用安全方便,智能化程度高,同时识别准确度高,应用环境友好,市场前景广阔。

【技术实现步骤摘要】
一种自适应的智能单据识别录入装置及其使用方法
:专利技术属于图像识别处理领域,涉及一种物流单据的识别装置,特别是一种自适应的智能单据识别录入装置及其使用方法。
技术介绍
:在空运,海运等进出口业务中,业务过程中流转的单据格式及类型(如:客户委托单,船公司订舱回执单等)多样,有可以直接拷贝内容的word,excel,textualPDF等格式,也有相当一部分是图片格式的文件,或者干脆是纸质文件。由于历史的原因,来自全球各地的空运及海运单据的类型非常多,行业内对客户单据没有统一格式标准,甚至单个客户也会提供多种格式的单据。这种情况下,对一些体量大的物流或者是货物代理公司,在面对几百上千个客户的时候,每天产生的单据流转量非常巨大,类型格式也相当多,据统计,一个几十人的中等规模的货代公司每个月流转的单据就几千甚至上万份。如果要把单据里面的内容再逐个录入到自己的ERP或者是其它业务系统,工作程序繁琐,工作量大,需要大量的手工人力工作,同时也容易在操作录入过程中出现差错。为了解决上述类似的问题,申请号为CN201710800489.4的中国专利公开了一种基于图像识别的物流单据智能分析与自动存储方法,该方法公开了一种基于图像识别的物流单据智能分析与自动存储方法,包括识别装置,所述识别装置包括:扫描拍摄模块,图形分割模块,图片处理模块,智能识别模块,等多个模块,该方法能够自动识别图片中的文字信息,对文字信息做进一步的对比和判断,并且将信息结果保存起来,并可通过人工修改后经过自我学习丰富自己的文字库从而提高以后识别的效率和准确性;,该种图片文字识别方法主要针对手写体做识别优化,识别范围只能对固定格式的国内快递运单做内容识别,对文字的布局,位置版面有格式要求。要求面单尺寸较小,内容不多,无法实现大篇幅的无固定格式的文字识别及提取功能。申请号为CN201810087635.8的中国专利公开了一种识别纠偏系统及方法,对纸质单据信息进行数据化处理,包括:图像获取单元,用于获取纸质单据图像;识别单元,用于识别所述单据图像中的文字,得到单据的识别结果数据集;信息纠偏单元,用于对所述识别结果数据集进行纠偏,得到纠偏后的单据信息;数据存储单元,用于存储信息数据库、所述单据图像、所述单据的识别结果数据集及所述纠偏后的单据信息。其中,所述信息数据库为所述信息纠偏单元的训练数据。专利技术涉及的是一种识别纠偏系统和方法,改善了OCR技术识别文字序列精度、准确率较低的弊端。该方法对手写单据的识别率较低的问题提供了一种识别纠偏系统和方法,改善了OCR技术识别文字序列精度准确率较低的弊端。但是上述专利中OCR技术对识别对象有格式要求,需要通过模板的方式,对需要提取的内容图片用人工的方式做对应的模板,识别系统就根据模板标注的固定位置坐标识别相应区域的文本,以达到文字提取的目的。但这中做法仍存在如下缺陷:一是需要人工做模板,增加工作量,尤其是要支持大量单据的情况下,需要定制很多模板,在业务员的的实际操作层面非常麻烦,操作员面对大量模板的选择工作将变得非常繁琐。二是对固定格式的文本做框选有时候不够精准,在填写的信息存在错位并且没有与固定格式完全对应时,做模板的时候就很难定位框选的尺寸大小,特别是错位的内容较多时,那么有些内容在识别中很有可能会被漏掉;三是对于尺寸较小的单据如果格式非常固定,可能可以做到准确度比较高,但对于A4甚至更大版面的单据,包含更多内容的委托书就更难通过固定模板来达到目的。因此,本专利技术寻求设计提供一种自适应的智能单据识别录入方法,抓住单据都有一些固定的关键字的特点(如:发货人,收货人,通知人,目的港,卸货港等),用标注关键字的方式及相对位置定位来进行单据的自动定位识别,无需选择任何模板,使用准确方便,有效提高单据录入效率和解放业务员的繁琐操作。
技术实现思路
:本专利技术的目的在于克服现有技术存在的缺点,寻求设计自适应的智能单据识别录入装置及其使用方法,通过标注关键字及相对位置定位的方式来进行单据的自动识别,无需事先定制模板,只需做一些规则配置就可以达到提取识别内容的目的。操作员提供要识别的文件,该方法将根据预先设定的规则,自动智能抓取单据中的内容,并输出格式化的数据,以便无缝对接客户的各种业务系统,节省了业务员需要逐条将内容录入到系统中的工作。为了实现上述目的,本专利技术涉及的一种自适应的智能单据识别录入装置及其使用方法通过如下技术方案实现:本专利技术包括有单据采集模块:基于图像识别的单据智能分析与自动存储方法,包括识别装置,所述识别装置包括有硬件扫描或者拍摄设备,用以取获取纸质单据图像;图像预处理模块:用以接收单据采集模块采集的图像,并对图像进行膨胀算法的预处理,便于系统获取结构化的文字,以及文字或者表格的坐标位置,便于后期对文字进行相关性的分析,定位和提取。文字识别模块:对图像预处理模块中通过膨胀算法以及表格标记的各个小文本块进行文字识别,通过对膨胀获取的提取单元进行二值化处理,有效去除有些单据的背景及底图的干扰,提高图像的识别准确率,经过二值化处理的图片会更清晰,特征更明显,有利于文字识别模块进行文字识别;该识别方式能够避免对整片文档的大面积识别,而是针对预处理模块分析出来的多个小区域进行识别,有效提高了识别率,在文字识别模块识别完成后,将处理后的数据传输至相关性分析模块;相关性分析模块:相关性分析模块是本专利技术的核心模块,能够根据文字识别的结果和配置的相关规则,对文字的相关性进行分析,判断各个文字块之间的关系,如判断收货人是在<收货人>这个关键字的下面还是右面,对于人眼很容易正确匹配并判断的信息,对于计算机并不具备人类的认知能力,所以计算机所读取到的就是一些文字,却无法解读其含义,以及文字之间的关系,本方法则会对文本直接的关系做约定和配置,通过相关性分析,下一步将对文本做结构分析获得的各字段进行信息提取;数据抽取模块:相关性分析明确了文字块之间的相互关系,数据抽取模块根据相关性分析模块中相关性分析的结果,对数据进行抽取工作,以获取结构化的数据,并返回到调用方;抽取的方式为如下,根据预先配置的需要抽取的数据字段,以及对应的关键字信息,进行数据的实际抽取,抽取时以相关性分析为依据;数据抽取模块根据上述的相关性分析,得到字段与文字的对应关系,并组织成第三方系统需要的数据格式JSON、XML等,并将数据返回到第三方系统;数据存储模块:数据抽取后,系统对抽取结果保存到数据库,以备后续纠错时参考;智能纠偏模块:包括有设计核对子模块,用以对识别结果做核对,以提高识别的准确率,通过对数据抽取模块的数据抽取结果,以及数据抽取历史和纠正结果的比对,对抽取的数据做自动的智能纠正;包括有对港口信息的纠正,针对单据中对港口信息描述不规范的情形,该模块自动将识别结果与数据库数据做比对,将错误的港口根据比对结果进行自动纠正;还包括有CBM前面的数字被错误的识别为了重量,该模块将根据数据记忆和知识,自动找到KGS的值对重量和体积进行纠正;人工矫正界面:本专利技术界面提供识别后的结果与原图片,操作人员能够点击识别结果的内容,智能纠偏模块根据上述获得的识别结果的对应坐标信息,自动框选原图片的区域,便于操作人员进行核对和修改;操作人员通过设计核对界面矫正的结果将被保本文档来自技高网
...

【技术保护点】
1.一种自适应的智能单据识别录入装置及其使用方法,其特征在于包括有单据采集模块:基于图像识别的单据智能分析与自动存储方法,包括识别装置,所述识别装置包括有硬件扫描或者拍摄设备,用以取获取纸质单据图像;图像预处理模块:用以接收单据采集模块采集的图像,并对图像进行膨胀算法的预处理,便于系统获取结构化的文字,以及文字或者表格的坐标位置,便于后期对文字进行相关性的分析,定位和提取。文字识别模块:对图像预处理模块中通过膨胀算法以及表格标记的各个小文本块进行文字识别,通过对膨胀获取的提取单元进行二值化处理,有效去除有些单据的背景及底图的干扰,提高图像的识别准确率,经过二值化处理的图片会更清晰,特征更明显,有利于文字识别模块进行文字识别;该识别方式能够避免对整片文档的大面积识别,而是针对预处理模块分析出来的多个小区域进行识别,有效提高了识别率,在文字识别模块识别完成后,将处理后的数据传输至相关性分析模块;相关性分析模块:相关性分析模块是本专利技术的核心模块,能够根据文字识别的结果和配置的相关规则,对文字的相关性进行分析,判断各个文字块之间的关系,如判断收货人是在<收货人>这个关键字的下面还是右面,对于人眼很容易正确匹配并判断的信息,对于计算机并不具备人类的认知能力,所以计算机所读取到的就是一些文字,却无法解读其含义,以及文字之间的关系,本方法则会对文本直接的关系做约定和配置,通过相关性分析,下一步将对文本做结构分析获得的各字段进行信息提取;数据抽取模块:相关性分析明确了文字块之间的相互关系,数据抽取模块根据相关性分析模块中相关性分析的结果,对数据进行抽取工作,以获取结构化的数据,并返回到调用方;抽取的方式为如下,根据预先配置的需要抽取的数据字段,以及对应的关键字信息,进行数据的实际抽取,抽取时以相关性分析为依据;数据抽取模块根据上述的相关性分析,得到字段与文字的对应关系,并组织成第三方系统需要的数据格式JSON、XML等,并将数据返回到第三方系统;数据存储模块:数据抽取后,系统对抽取结果保存到数据库,以备后续纠错时参考;智能纠偏模块:包括有设计核对子模块,用以对识别结果做核对,以提高识别的准确率,通过对数据抽取模块的数据抽取结果,以及数据抽取历史和纠正结果的比对,对抽取的数据做自动的智能纠正;包括有对港口信息的纠正,针对单据中对港口信息描述不规范的情形,该模块自动将识别结果与数据库数据做比对,将错误的港口根据比对结果进行自动纠正;还包括有CBM前面的数字被错误的识别为了重量,该模块将根据数据记忆和知识,自动找到KGS的值对重量和体积进行纠正;人工矫正界面:本专利技术界面提供识别后的结果与原图片,操作人员能够点击识别结果的内容,智能纠偏模块根据上述获得的识别结果的对应坐标信息,自动框选原图片的区域,便于操作人员进行核对和修改;操作人员通过设计核对界面矫正的结果将被保存到智库,用于自动矫正纠偏,并为机器深度学习提供样本,以便在后期进一步提高准确率。...

【技术特征摘要】
1.一种自适应的智能单据识别录入装置及其使用方法,其特征在于包括有单据采集模块:基于图像识别的单据智能分析与自动存储方法,包括识别装置,所述识别装置包括有硬件扫描或者拍摄设备,用以取获取纸质单据图像;图像预处理模块:用以接收单据采集模块采集的图像,并对图像进行膨胀算法的预处理,便于系统获取结构化的文字,以及文字或者表格的坐标位置,便于后期对文字进行相关性的分析,定位和提取。文字识别模块:对图像预处理模块中通过膨胀算法以及表格标记的各个小文本块进行文字识别,通过对膨胀获取的提取单元进行二值化处理,有效去除有些单据的背景及底图的干扰,提高图像的识别准确率,经过二值化处理的图片会更清晰,特征更明显,有利于文字识别模块进行文字识别;该识别方式能够避免对整片文档的大面积识别,而是针对预处理模块分析出来的多个小区域进行识别,有效提高了识别率,在文字识别模块识别完成后,将处理后的数据传输至相关性分析模块;相关性分析模块:相关性分析模块是本发明的核心模块,能够根据文字识别的结果和配置的相关规则,对文字的相关性进行分析,判断各个文字块之间的关系,如判断收货人是在<收货人>这个关键字的下面还是右面,对于人眼很容易正确匹配并判断的信息,对于计算机并不具备人类的认知能力,所以计算机所读取到的就是一些文字,却无法解读其含义,以及文字之间的关系,本方法则会对文本直接的关系做约定和配置,通过相关性分析,下一步将对文本做结构分析获得的各字段进行信息提取;数据抽取模块:相关性分析明确了文字块之间的相互关系,数据抽取模块根据相关性分析模块中相关性分析的结果,对数据进行抽取工作,以获取结构化的数据,并返回到调用方;抽取的方式为如下,根据预先配置的需要抽取的数据字段,以及对应的关键字信息,进行数据的实际抽取,抽取时以相关性分析为依据;数据抽取模块根据上述的相关性分析,得到字段与文字的对应关系,并组织成第三方系统需要的数据格式JSON、XML等,并将数据返回到第三方系统;数据存储模块:数据抽取后,系统对抽取结果保存到数据库,以备后续纠错时参考;智能纠偏模块:包括有设计核对子模块,用以对识别结果做核对,以提高识别的准确率,通过对数据抽取模块的数据抽取结果,以及数据抽取历史和纠正结果的比对,对抽取的数据做自动的智能纠正;包括有对港口信息的纠正,针对单据中对港口信息描述不规范的情形,该模块自动将识别结果与数据库数据做比对,将错误的港口根据比对结果进行自动纠正;还包括有CBM前面的数字被错误的识别为了重量,该模块将根据数据记忆和知识,自动找到KGS的值对重量和体积进行纠正;人工矫正界面:本发明界面提供识别后的结果与原图片,操作人员能够点击识别结果的内容,智能纠偏模块根据上述获得的识别结果的对应坐标信息,自动框选原图片的区域,便于操作人员进行核对和修改;操作人员通过设计核对界面矫正的结果将被保存到智库,用于自动矫正纠偏,...

【专利技术属性】
技术研发人员:王营李承涛陈小二盛杨周鑫
申请(专利权)人:青岛盈智科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1