本发明专利技术公开了一种发票信息提取方法及系统,该方法包括:1)根据文本方向对目标发票图片进行分类;2)获取经过分类后的图片的检测区域,对检测区域取最小外接矩形并进行仿射变换;3)获取经过仿射变换后的图片的文字定位框位置且进行截图,对截图进行文字识别得到文字识别结果;4)通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果;5)将语义实体识别结果进行后处理得到最终结果。本发明专利技术完全基于深度学习,流程清晰,速度快,精度高,鲁棒性强。本发明专利技术可移植性强,可以轻松应用于其他票据识别上。本发明专利技术利用了文本、视觉、布局等多模态信息从而极大的提升了语义实体识别的准确率。别的准确率。别的准确率。
【技术实现步骤摘要】
一种发票信息提取方法及系统
[0001]本专利技术涉及文本识别
,具体涉及一种发票信息提取方法及系统。
技术介绍
[0002]目前,随着AI技术的OCR文字识别的进步和日趋成熟,在财务管理领域的应用也越来越普及,尤其是在发票的处理运用上。AI技术能够根据发票的影像文件,通过OCR技术快速识别发票中的内容并形成结构化数据,发票数据的获取速度从人工的分钟级别升级到了秒级,准确率也将达到更高的水平。极大的节省了发票录入的时间,进一步推进了企业财务领域管理线上化、自动化的进程。
[0003]现有发票识别主要有以下方案:
[0004][0005]由于拍照设备的硬件、拍照时间以及拍照所处场景千差万别,导致得到的文档素材差异性较大,目前的算法在准确率和鲁棒性方面均不理想。
技术实现思路
[0006]本专利技术的目的在于克服现有技术之缺陷,提供了一种场景适应的参数化光伏组件松动检测方法,针对现有发票信息提取存在的流程较长、准确率较低、鲁棒性较差的问题,在算法流程上进行了优化,关键部分均使用深度学习算法,改善了目前算法中存在的问题。
[0007]为了到达预期效果,本专利技术采用了以下技术方案:
[0008]本专利技术公开了一种发票信息提取方法,包括:
[0009]1)根据文本方向对目标发票图片进行分类;
[0010]2)获取经过分类后的图片的检测区域,对检测区域取最小外接矩形并进行仿射变换;
[0011]3)获取经过仿射变换后的图片的文字定位框位置且进行截图,对截图进行文字识别得到文字识别结果;
[0012]4)通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果;
[0013]5)将语义实体识别结果进行后处理得到最终结果。
[0014]进一步地,通过文本方向检测模型将目标发票图片按照角度分为多种情况,且定义其中一角度为标准方向,根据分类情况将目标发票图片统一旋转至标准方向。
[0015]进一步地,当通过文本方向检测模型将目标发票图片按照角度分为多种情况时,在所述文本方向检测模型的骨干网络中提取不同尺寸的特征图层进行方向预测以得到预设的分类图片。
[0016]进一步地,将经过旋转的图片经过部分调整后再输入分割模型以获取经过分类后的图片的检测区域,所述部分调整具体包括:根据图片的长宽比统计特征,缩小图片尺寸,使分割模型在分割速度和精度之间达到平衡。
[0017]进一步地,将经过仿射变换后的图片输入文字检测模型以获取经过仿射变换后的图片的文字定位框位置且进行截图,所述文字检测模型采用基于自适应尺度融合的可微分二值化模型。
[0018]进一步地,所述获取经过仿射变换后的图片的文字定位框位置具体包括:在后处理上对相应的超参数进行部分参数搜索,通过网格搜索得到当下任务最优的超参数。
[0019]进一步地,所述对截图进行文字识别得到文字识别结果具体包括:将截图输入文字识别模型进行文字识别得到文字识别结果。
[0020]进一步地,所述文字识别模型采用卷积循环神经网络模型,所述卷积循环神经网络模型包括卷积层特征提取层和双向长短时记忆网络序列特征提取层,在文字识别过程中,前端使用卷积层网络提取文本图像的特征,利用双向长短时记忆网络序列特征提取层将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通过转录层进行识别得到文本序列。
[0021]进一步地,所述通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果,具体包括:将文字识别结果、文字定位框位置、目标发票图片输入语义实体识别模型进行多模态预训练以获取语义实体识别结果。
[0022]本专利技术还公开了一种发票信息提取系统,包括:
[0023]文本方向检测模块,用于根据文本方向对目标发票图片进行分类;
[0024]分割模块,用于获取经过分类后的图片的检测区域,对检测区域取最小外接矩形并进行仿射变换;
[0025]文字检测模块,用于获取经过仿射变换后的图片的文字定位框位置且进行截图;
[0026]文字识别模块,用于对截图进行文字识别得到文字识别结果;
[0027]语义实体识别模块,用于通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果;
[0028]后处理模块,用于将语义实体识别结果进行后处理得到最终结果。
[0029]与现有技术相比,本专利技术的有益效果是:本专利技术公开了一种发票信息提取方法及系统,该方法完全基于深度学习,流程清晰,速度快,精度高,鲁棒性强。该方法可移植性强,可以轻松应用于其他票据识别上。为了提升发票信息提取的准确率,本专利技术修改了部分网
络,对部分网络进行了级联。本专利技术放弃LayoutXLM的传统keyvalue的预测方式,直接把模型运用在分类任务上,极大提升了可行性。本专利技术通过减少传统图像处理方法的比重,增加了鲁棒性。本专利技术通过分析发票使用场景,构造符合场景的模拟数据提升了各模型准确率。提取出字段后,相比传统方法只利用文本信息的方法,本专利技术利用了文本、视觉、布局等多模态信息从而极大的提升了语义实体识别的准确率。
附图说明
[0030]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0031]图1是本专利技术实施例提供的一种发票信息提取方法的流程图。
具体实施方式
[0032]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0033]参见图1,本专利技术公开了一种发票信息提取方法,包括:
[0034]1)根据文本方向对目标发票图片进行分类。这一步骤的目的是将目标发票图片分成多类后以便后续分割和文字检测。
[0035]2)获取经过分类后的图片的检测区域,对检测区域取最小外接矩形并进行仿射变换。这一步骤的目的是将发票图片主体同背景分开,减少背景干扰,并通过仿射变换将发票区域拉正以方便后续文字检测。
[0036]3)获取经过仿射变换后的图片的文字定位框位置且进行截图,对截图进行文字识别得到文字识别结果。这一步骤的目的是将发票主体区域各文字段的位置检测出来,并剪切出这些区域以方便后续文字识别。
[0037]4)通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果;这一步骤的主要目的是将识别出来的各文字段进行分类从而与发票各字段对应起来。
[0038]5)将语义实体识别结果进行后处理得到最终结果。这一步骤的目的是将语义实体识别(SER)输出结果中可以校本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种发票信息提取方法,其特征在于,包括:1)根据文本方向对目标发票图片进行分类;2)获取经过分类后的图片的检测区域,对检测区域取最小外接矩形并进行仿射变换;3)获取经过仿射变换后的图片的文字定位框位置且进行截图,对截图进行文字识别得到文字识别结果;4)通过文字识别结果、文字定位框位置、目标发票图片获取语义实体识别结果;5)将语义实体识别结果进行后处理得到最终结果。2.如权利要求1所述的一种发票信息提取方法,其特征在于,通过文本方向检测模型将目标发票图片按照角度分为多种情况,且定义其中一角度为标准方向,根据分类情况将目标发票图片统一旋转至标准方向。3.如权利要求2所述的一种发票信息提取方法,其特征在于,当通过文本方向检测模型将目标发票图片按照角度分为多种情况时,在所述文本方向检测模型的骨干网络中提取不同尺寸的特征图层进行方向预测以得到预设的分类图片。4.如权利要求2或3所述的一种发票信息提取方法,其特征在于,将经过旋转的图片经过部分调整后再输入分割模型以获取经过分类后的图片的检测区域,所述部分调整具体包括:根据图片的长宽比统计特征,缩小图片尺寸,使分割模型在分割速度和精度之间达到平衡。5.如权利要求1所述的一种发票信息提取方法,其特征在于,将经过仿射变换后的图片输入文字检测模型以获取经过仿射变换后的图片的文字定位框位置且进行截图,所述文字检测模型采用基于自适应尺度融合的可微分二值化模型。6.如权利要求5所述的一种发票信息提取方法,其特征在于,所述获取经过仿射变换后的图片的文字定位框位置具体包括:在后处理上对相...
【专利技术属性】
技术研发人员:晏宇,周彭滔,邓嘉,董逢华,
申请(专利权)人:武汉天喻信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。