一种基于神经网络的发票识别方法和系统技术方案

技术编号：27598966 阅读：41 留言：0更新日期：2021-03-10 10:20

本发明专利技术公开了一种基于神经网络的发票识别方法和系统，涉及计算机技术领域，所述方法通过按发票内容将发票进行分切，通过第一神经网络模型识别分切图中的文字框，基于文字框的位置区域将分切图进一步分切，获得文字框图，以删除多余空白区域，一方面减少计算量，提高识别效率，另一方面同时删除了发票上的格线，避免了格线对文字识别的干扰，提高文字定位的准确率；基于第二神经网络模型识别文字框图的文字；将所识别的文字基于文字框图的位置区域拼接，获得分切图的文字内容，从而获得发票的识别结果。识别结果。识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于神经网络的发票识别方法和系统

[0001]本专利技术涉及计算机
，具体涉及一种基于神经网络的发票识别方法和系统。

技术介绍

[0002]发票管理是财务管理的一项重要事项，需要投入大量的人力和物力，采集原始票据的以及信息录入，繁重的票据录入和管理工作，既耗费人力，又耗费时间影响了办公效率。
[0003]目前的发票识别主要采用图像处理，并采用基于Tesseract的OCR(Optical Character Recognition,光学字符识别)引擎识别文字，但是单纯采用图像处理，受到发票上格线的干扰，对发票上的文字的定位准确率受限；且Tesseract的文字识别速度较慢，识别的准确率也无法提升，

技术实现思路

[0004]针对现有技术中存在的上述技术问题，本专利技术提供一种基于神经网络的发票识别方法和系统，便于准确识别发票上的文字，并且便于定位发票上的文字。
[0005]本专利技术公开了一种基于神经网络的发票识别方法，所述方法包括：根据发票内容的位置区域，将发票进行分切，获得分切图；基于第一神经网络模型识别所述分切图中的文字框；基于所述文字框的位置区域，将所述分切图分切为文字框图；基于第二神经网络模型识别所述文字框图中的文字；根据所述文字框的位置区域和识别的文字获取所述分切图的拼接结果；根据所述分切图的拼接结果，获取发票的识别结果。
[0006]优选的，所述方法还包括发票预处理的方法：将所述发票转换成发票图片；将所述发票图片转正。
[0007]优选的，票图片...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络的发票识别方法，其特征在于，所述方法包括：根据发票内容的位置区域，将发票进行分切，获得分切图；基于第一神经网络模型识别所述分切图中的文字框；基于所述文字框的位置区域，将所述分切图分切为文字框图；基于第二神经网络模型识别所述文字框图中的文字；根据所述文字框的位置区域和识别的文字获取所述分切图的拼接结果；根据所述分切图的拼接结果，获取发票的识别结果。2.根据权利要求1所述的发票识别方法，其特征在于，所述方法还包括发票预处理的方法：将所述发票转换成发票图片；将所述发票图片转正。3.根据权利要求2所述的发票识别方法，其特征在于，所述发票图片转正的方法包括：基于霍夫变换将所述发票图片进行倾斜矫正；获取所述发票图片中二维码或印章的位置，根据所述二维码或印章的位置关系，获取发票图片的朝向；根据所述发票图片的朝向，将所述发票图片转正。4.根据权利要求3所述的发票识别方法，其特征在于，将发票进行分切，并获得分切图的方法包括：根据所述发票内容与二维码或印章的位置关系，获取所述发票内容的位置区域；根据所述位置区域，将所述发票图片分切成分切图。5.根据权利要求1或4所述的发票识别方法，其特征在于，所述第一神经网络模型包括CTPN模型，获取所述CTPN模型的方法包括：获取预设数量的发票图片样本；按发票内容将所述发票图片样本分切，获得分切样本；为所述分切样本设置标签，获得训练集；其中，所述标签为分切样本中的文字框坐标；基于CTPN神经网络，对所述训练集进行训练，获得所述第一神经网络模型。6.根据权利要求1所述的发票识别方法，其特征在于，获取所述第二神经网络模型的方法包括：根据发票中的文字特征，建立训...

【专利技术属性】
技术研发人员：漆孟冬，
申请(专利权)人：北京思特奇信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人