单据图像信息提取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:38047054 阅读:11 留言:0更新日期:2023-06-30 11:13
本发明专利技术提供了一种单据图像信息提取方法、装置、计算机设备和存储介质。该单据图像信息提取方法包括:检测单据图像中的文本区域;判断所述文本区域中的文本是否属于手写体;当所述文本区域中的文本属于手写体,调用手写体识别模块识别所述文本区域的文本;当所述文本区域中的文本不属于手写体时,调用印刷体识别模块识别所述文本区域的文本;以及根据所述文本区域的文本识别结果输出所述单据图像中的文字信息。通过本发明专利技术,能够提高单据图像信息的识别精度和效率。识别精度和效率。识别精度和效率。

【技术实现步骤摘要】
单据图像信息提取方法、装置、计算机设备和存储介质


[0001]本专利技术涉及图像处理
,尤其涉及一种单据图像信息提取方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着电子化办公和工业互联网的发展,越来越多的单据被数字化,以便于存储、查询和共享。其中运输单据作为物流运输过程中的一个重要的凭证,其数字化解析就变得尤为重要。单据图像信息提取方法是一种将纸质单据转换为数字数据的技术,可以实现快速准确地提取单据中的文字信息,然而物流运输单包含信息量大,在单据上通常会有很多手写信息,单纯使用光学字符识别(OCR)技术往往无法实现高精度的信息提取。
[0003]因此,需要一种更加智能的单据图像信息提取方法来提高识别精度和效率。

技术实现思路

[0004]本专利技术的目的是提供一种单据图像信息提取方法、装置、计算机设备和存储介质,用于解决现有技术中的技术问题。
[0005]一方面,为实现上述目的,本专利技术提供了一种单据图像信息提取方法。
[0006]该单据图像信息提取方法包括:检测单据图像中的文本区域;判断所述文本区域中的文本是否属于手写体;当所述文本区域中的文本属于手写体,调用手写体识别模块识别所述文本区域的文本;当所述文本区域中的文本不属于手写体时,调用印刷体识别模块识别所述文本区域的文本;以及根据所述文本区域的文本识别结果输出所述单据图像中的文字信息。
[0007]进一步地,单据图像包括多个文本区域,定义第一文本区域为所述单句图像中的任意一个文本区域,判断所述第一文本区域中的文本是否属于手写体的步骤包括:检测所述第一文本区域中线段的形态学特征是否一致;若所述第一文本区域中线段的形态学特征不一致,检测所述第一文本区域中线段的纹理特征是否一致;以及若所述第一文本区域中线段的纹理特征不一致,则确定所述第一文本区域中的文本属于手写体。
[0008]进一步地,所述形态学特征包括粗细度和曲率,所述纹理特征包括清晰度和灰度值。
[0009]进一步地,所述文本区域的文本的识别结果包括若干文本行语义信息和与每个所述文本行语义信息对应的文本行位置信息,根据识别所述文本区域的文本的识别结果输出所述单据图像中的文字信息的步骤包括:将各个所述文本语义信息分别与预设的关键词列表进行匹配,其中,所述关键词列表包括多个关键词,预设结果位置规则与所述关键词相对应;当第一文本语义信息与所述关键词列表中的第一关键词匹配时,查找满足所述第一关键词对应的结果位置规则的文本行位置信息,得到第二文本行位置信息;获取所述第二文本行位置信息对应的第二文本语义信息;以及将所述第二文本语义信息与所述第一文本语义信息作为一个匹配结果输出。
[0010]进一步地,检测单据图像中的文本区域包括:对所述单据图像进行关键点检测,以确定所述单据图像中的单据区域;通过透视变换对所述单据区域进行校正;以及检测透视变换的单据区域中的文本区域。
[0011]进一步地,单据图像信息提取方法还包括:检测所述单据图像中的印章区域;提取所述印章区域中的文本单元;将所述文本单元进行拉平处理;识别拉平处理后的文本单元中的文本;以及根据识别到的所述文本单元中的文本输出印章识别结果。
[0012]进一步地,单据图像信息提取方法还包括:检测所述单据图像中的二维码区域;对所述二维码区域进行校正;对校正后的二维码区域进行解码;根据解码得到的信息输出二维码识别结果。
[0013]另一方面,为实现上述目的,本专利技术提供了一种单据图像信息提取装置。
[0014]该单据图像信息提取装置包括:第一检测模块,用于检测单据图像中的文本区域;判断模块,用于判断所述文本区域中的文本是否属于手写体;第一调用模块,用于当所述文本区域中的文本属于手写体,调用手写体识别模块识别所述文本区域的文本;第二调用模块,用于当所述文本区域中的文本不属于手写体时,调用印刷体识别模块识别所述文本区域的文本;以及第一输出模块,用于根据所述文本区域的文本识别结果输出所述单据图像中的文字信息。
[0015]为实现上述目的,本专利技术还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
[0016]为实现上述目的,本专利技术还提供计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0017]本专利技术提供的单据图像信息提取方法、装置、计算机设备和存储介质,首先检测单据图像中的文本区域,然后判断检测出的每个文本区域中的文本是否属于手写体。针对每个文本区域,当该文本区域中的文本属于手写体,调用手写体识别模块识别文本区域的文本,当该文本区域中的文本不属于手写体时,调用印刷体识别模块识别述文本区域的文本,最后根据文本区域的文本识别结果输出单据图像中的文字信息。通过本专利技术,实现了对单据图像中的文字信息提取的智能化处理,无需人工干预,为单据数字化提供了有力的技术支持,同时,该方法在识别文本前先进行手写体和印刷体的区别,再通过采用手写体识别和印刷体识别两种不同的识别方式分别识别对应的文本区域,提高了识别的准确性和效率。
附图说明
[0018]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0019]图1为本专利技术实施例一提供的单据图像信息提取方法的流程图;
[0020]图2为本专利技术实施例二提供的单据图像信息提取装置的框图;
[0021]图3为本专利技术实施例三提供的计算机设备的硬件结构图。
具体实施方式
[0022]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0023]实施例一
[0024]本专利技术实施例提供了一种单据图像信息提取方法,通过该方法,能够提升单据图像信息提取的精度和效率,具体地,图1为本专利技术实施例一提供的单据图像信息提取方法的流程图,如图1所示,该实施例提供的单据图像信息提取方法包括如下的步骤S101至步骤S105。
[0025]步骤S101:检测单据图像中的文本区域。
[0026]针对需要数字电子化的单据,首先采用相机进行拍照,得到单据图像,进而通过该步骤S101,检测其中的文本区域。
[0027]可选地,可以采用基于深度学习的文本检测算法检测单据图像中的文本区域,例如采用DBNet模型进行文本检测。首先构建包含单据图像和对应文本标注框的数据集作为样本集,用于对DBNet模型进行训练和测试,其中,文本标注框是指单据中需要检测的文本区域的边界框。然后利用样本集训练DB本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单据图像信息提取方法,其特征在于,包括:检测单据图像中的文本区域;判断所述文本区域中的文本是否属于手写体;当所述文本区域中的文本属于手写体,调用手写体识别模块识别所述文本区域的文本;当所述文本区域中的文本不属于手写体时,调用印刷体识别模块识别所述文本区域的文本;以及根据所述文本区域的文本识别结果输出所述单据图像中的文字信息。2.根据权利要求1所述的单据图像信息提取方法,其特征在于,单据图像包括多个文本区域,定义第一文本区域为所述单据图像中的任意一个文本区域,判断所述第一文本区域中的文本是否属于手写体的步骤包括:检测所述第一文本区域中线段的形态学特征是否一致;若所述第一文本区域中线段的形态学特征不一致,检测所述第一文本区域中线段的纹理特征是否一致;以及若所述第一文本区域中线段的纹理特征不一致,则确定所述第一文本区域中的文本属于手写体。3.根据权利要求2所述的单据图像信息提取方法,其特征在于,所述形态学特征包括粗细度和曲率,所述纹理特征包括清晰度和灰度值。4.根据权利要求1所述的单据图像信息提取方法,其特征在于,所述文本区域的文本的识别结果包括若干文本行语义信息和与每个所述文本行语义信息对应的文本行位置信息,根据识别所述文本区域的文本的识别结果输出所述单据图像中的文字信息的步骤包括:将各个所述文本语义信息分别与预设的关键词列表进行匹配,其中,所述关键词列表包括多个关键词,预设结果位置规则与所述关键词相对应;当第一文本语义信息与所述关键词列表中的第一关键词匹配时,查找满足所述第一关键词对应的结果位置规则的文本行位置信息,得到第二文本行位置信息;获取所述第二文本行位置信息对应的第二文本语义信息;以及将所述第二文本语义信息与所...

【专利技术属性】
技术研发人员:姜天昌孔爱祥赵佳娣余炅桦晋杰
申请(专利权)人:广联达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1