业务单据影像内容识别方法及装置制造方法及图纸

技术编号:28787324 阅读:24 留言:0更新日期:2021-06-09 11:22
本发明专利技术提供了一种业务单据影像内容识别方法及装置,适用于物联网领域,方法包括:对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;根据识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;根据识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。本发明专利技术可广泛应用于基于文字识别结果的业务场景中,特别适用于影像组织结构非标准化且样式繁多的影像,能够以同一的方式在文字识别结果的基础上实现影像数据的结构化提取。能够在通用的不依赖具体文字识别实现的基础上,有效实现复杂影像数据的结构化提取,最终提升文字识别的自动化处理整体任务的准确率。整体任务的准确率。整体任务的准确率。

【技术实现步骤摘要】
业务单据影像内容识别方法及装置


[0001]本专利技术涉及图像处理技术,具体的讲是一种业务单据影像内容识别方法及装置。

技术介绍

[0002]在信用证等国际业务中,客户需提供发票、保单和提运单等单据供银行审核,这些跨国或地区的交易和结算,往往涉及不同公司不同板式的单据影像,如表格型、分栏型或开放式等。
[0003]现有技术中,OCR技术虽然能够有效识别影像内容,但还无法有效组织识别后的结果,因此,目前相关国际业务还是以业务人员手工处理为主。

技术实现思路

[0004]为了至少克服现有技术中业务单据影像识别的一缺陷,本专利技术提供了一种业务单据影像内容识别方法,包括:
[0005]对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;
[0006]根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;
[0007]根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。
[0008]本专利技术实施例中,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落包括:
[0009]根据所述文字位置信息确定段落候选区域;
[0010]利用预设的语义判别模型对段落候选区域中的识别文字进行语义判别,生成候选目标段落。
[0011]本专利技术实施例中,所述的文字信息还包括:文字的字体大小信息、文字的间隔距离及文字高度信息;所述的根据所述文字位置信息确定段落候选区域包括:
[0012]根据所述的文字位置信息确定初始的段落候选区域;
[0013]根据初始的段落候选区域中文字的字体大小、文字间隔距离及文字高度确定段落候选区域。
[0014]本专利技术实施例中,所述的根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果包括:
[0015]根据预设的关键字确定所述的识别文字中存在的关键字;
[0016]根据确定的关键字的位置信息确定该关键字对应的候选目标段落;
[0017]利用预先训练的文本分类模型对关键字及其对应的候选目标段落进行匹配解析生成结构化的业务单据内容识别结果。
[0018]本专利技术实施例中,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落还包括:
[0019]获取预先存储的业务文本数据;
[0020]利用所述业务文本数据对预设的初始的语言模型进行模型训练生成预设的语义判别模型。
[0021]本专利技术实施例中,所述的根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果包括:
[0022]获取预先存储的业务键值对数据;其中,所述的业务键值对数据包括:业务的关键字及关键字对应的段落数据;
[0023]利用所述的业务的关键字及关键字对应的段落数据对预设的初始的文本分类模型进行模型训练生成预设的文本分类模型。
[0024]同时,本专利技术还提供一种业务单据影像内容识别装置,包括:
[0025]文字识别模块,用于对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;
[0026]段落生成模块,用于根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;
[0027]匹配模块,用于根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。
[0028]本专利技术实施例中,所述的段落生成模块包括:
[0029]段落候选区域确定单元,用于根据所述文字位置信息确定段落候选区域;
[0030]判别单元,用于利用预设的语义判别模型对段落候选区域中的识别文字进行语义判别,生成候选目标段落。
[0031]本专利技术实施例中,所述的匹配模块包括:
[0032]关键字查找单元,根据预设的关键字确定所述的识别文字中存在的关键字;
[0033]候选目标段落确定单元,根据确定的关键字的位置信息确定该关键字对应的候选目标段落;
[0034]分类匹配单元,用于利用预先训练的文本分类模型对关键字及其对应的候选目标段落进行匹配解析生成结构化的业务单据内容识别结果。
[0035]同时,本专利技术还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法。
[0036]同时,本专利技术还提供一种计算机可读存储介质,计算机可读存储介质存储有执行上述方法的计算机程序。
[0037]本专利技术提供的业务单据影像内容识别方法及装置,对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。提出了一种基于路径分析和语义理解的影像识别结果迭代结构化提取装置,可以广泛应用于基于OCR识别结果的业务场景中,特别适用于影像组织结构非标准化且样式繁多的影像,能够以同一的方式在OCR识别结果的基础上实现影像数据的结构化提取。本专利技术是对现有OCR技术的有益补充,通过本方法,能够在通用的不依赖具体OCR实现的基础上,有效实现复杂影像数据的结构化提取,最终提升基于OCR技术的自动化处理整体任务的准确率。
[0038]为让本专利技术的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
[0039]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1为本专利技术提供的业务单据影像内容识别方法的流程图;
[0041]图2为本专利技术实施例提供的影像识别结果结构化提取系统的框图;
[0042]图3为本专利技术实施例中的待识别影像的截图;
[0043]图4为本专利技术实施例中的框图;
[0044]图5为本专利技术实施例中的待识别影像的截图;
[0045]图6为本专利技术实施例中的待识别影像的截图;
[0046]图7为本专利技术实施例中的待识别影像的截图;
[0047]图8为本专利技术实施例中的框图;
[0048]图9为本专利技术实施例中的待识别影像的截图;
[0049]图10为本专利技术实施例中的流程图;
[0050]图11为本专利技术提供的业务单据影像内容识别装置的框图;
[0051]图12为本专利技术实施例中的框图;
[0052]图13为本专利技术实施例中的框图;
[0053]图14为本专利技术实施例提供的电子设备实施例的示意图。
具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种业务单据影像内容识别方法,其特征在于,所述的方法包括:对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。2.如权利要求1所述的业务单据影像内容识别方法,其特征在于,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落包括:根据所述文字位置信息确定段落候选区域;利用预设的语义判别模型对段落候选区域中的识别文字进行语义判别,生成候选目标段落。3.如权利要求2所述的业务单据影像内容识别方法,其特征在于,所述的文字信息还包括:文字的字体大小信息、文字的间隔距离及文字高度信息;所述的根据所述文字位置信息确定段落候选区域包括:根据所述的文字位置信息确定初始的段落候选区域;根据初始的段落候选区域中文字的字体大小、文字间隔距离及文字高度确定段落候选区域。4.如权利要求1所述的业务单据影像内容识别方法,其特征在于,所述的根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果包括:根据预设的关键字确定所述的识别文字中存在的关键字;根据确定的关键字的位置信息确定该关键字对应的候选目标段落;利用预先训练的文本分类模型对关键字及其对应的候选目标段落进行匹配解析生成结构化的业务单据内容识别结果。5.如权利要求2所述的业务单据影像内容识别方法,其特征在于,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落还包括:获取预先存储的业务文本数据;利用所述业务文本数据对预设的初始的语言模型进行模型训练生成预设的语义判别模型。6.如权利要求4所述的业务单据影像内容识别方法,其特征在于,所述的...

【专利技术属性】
技术研发人员:张鹏齐蓉王虹刘忆惠
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1