基于人工智能的电子发票信息抽取方法、装置及设备制造方法及图纸

技术编号:31802920 阅读:58 留言:0更新日期:2022-01-08 11:04
本发明专利技术涉及人工智能,提供了基于人工智能的电子发票信息抽取方法、装置、设备及介质,先是获取待识别电子发票图片的边框集合、各边框内的识别文本、相应的目标电子发票模板,然后将待识别电子发票图片进行坐标归一化调整得到调整后电子发票图片,之后基于调整后电子发票图片获取各像素点相应的九宫格匹配相似度和匹配标签,最后定位待匹配目标文本在边框集合的目标边框且确定调整后边框中像素点标签的标签组合与待匹配目标文本相同,将所述目标边框作为目标区域,并获目标区域的目标取值。实现了基于模板的信息抽取,其算法轻量简洁,且运行速度快,准确度高。准确度高。准确度高。

【技术实现步骤摘要】
基于人工智能的电子发票信息抽取方法、装置及设备


[0001]本专利技术涉及人工智能的图像识别领域,尤其涉及一种基于人工智能的电子发票信息抽取方法、装置、计算机设备及存储介质。

技术介绍

[0002]目前,文档智能主要是指对于扫描文档所包含的文本、排版信息,通过人工智能技术进行理解、分类、提取以及信息归纳。根据文档智能技术所得到的结构化数据也可进行更上层的智能化应用,如:信息挖掘、智能决策等。关于文档智能的研究在近年来逐渐兴起。
[0003]现阶段,存在一些针对结构化信息提取的研究,这些研究可以解决一些特定的任务,如:(1)给出了一种票据文档信息抽取算法,给定某些字段,可以自动从文档中抽取相应的值;(2)为影像中的每个字赋予一个综合“布局信息”和“语义信息”的向量表示,从而为下游任务提供帮助。
[0004]但是目前针对医疗电子发票的结构化信息提取,一般是基于OCR(Optical Character Recognition,光学字符识别)技术直接进行文本识别,若电子发票存在图片扭曲等情况,仅仅是基于OCR识别技术会导致识别准确率不高。

技术实现思路

[0005]本专利技术实施例提供了一种基于人工智能的电子发票信息抽取方法、装置、计算机设备及存储介质,旨在解决现有技术中对医疗电子发票的结构化信息提取,一般是基于OCR技术直接进行文本识别,若电子发票存在图片扭曲等情况,仅仅是基于OCR识别技术会导致识别准确率不高的问题。
[0006]第一方面,本专利技术实施例提供了一种基于人工智能的电子发票信息抽取方法,其包括:
[0007]响应于电子发票识别指令,获取与所述电子发票识别指令相应的待识别电子发票图片;
[0008]通过光学字符识别模型获取所述待识别电子发票图片的边框集合及各边框内的识别文本,识别所述待识别电子发票图片得到电子发票省份信息,及获取与所述待识别电子发票图片相应的目标电子发票模板;
[0009]将所述待识别电子发票图片根据预设的图片坐标调整策略进行坐标归一化调整得到调整后电子发票图片,并获取与所述目标电子发票模板相应的调整后目标发票模板;
[0010]获取所述调整后电子发票图片中各像素点在调整后目标发票模板中相应目标像素点,根据各目标像素点及预设的九宫格投票匹配策略九宫格匹配相似度获取各像素点相应的九宫格匹配相似度和匹配标签;
[0011]根据预设的第一正则表达式获取待匹配目标文本,边框内的识别文本若确定有边框内的识别文本为所述待匹配目标文本,则获取相应的目标边框,将所述目标边框根据所述图片坐标调整策略进行坐标归一化调整得到调整后边框;
[0012]若确定所述调整后边框中像素点标签的标签组合与所述待匹配目标文本之间的标签相似度超出预设的标签相似度阈值,将所述调整后边框中相应像素点的九宫格匹配相似度增加预设的置信度值,并将所述目标边框作为目标区域;以及
[0013]获取与所述目标区域具有最近距离且边框的文本内容为数值的目标候选边框,将所述目标候选边框中的文本取值作为所述待匹配目标文本的目标取值。
[0014]第二方面,本专利技术实施例提供了一种基于人工智能的电子发票信息抽取装置,其包括:
[0015]待识别图片获取单元,用于响应于电子发票识别指令,获取与所述电子发票识别指令相应的待识别电子发票图片;
[0016]图片识别单元,用于通过光学字符识别模型获取所述待识别电子发票图片的边框集合及各边框内的识别文本,识别所述待识别电子发票图片得到电子发票省份信息,及获取与所述待识别电子发票图片相应的目标电子发票模板;
[0017]图片坐标调整单元,用于将所述待识别电子发票图片根据预设的图片坐标调整策略进行坐标归一化调整得到调整后电子发票图片,并获取与所述目标电子发票模板相应的调整后目标发票模板;
[0018]图片像素点信息获取单元,用于获取所述调整后电子发票图片中各像素点在调整后目标发票模板中相应目标像素点,根据各目标像素点及预设的九宫格投票匹配策略九宫格匹配相似度获取各像素点相应的九宫格匹配相似度和匹配标签;
[0019]目标边框定位单元,用于根据预设的第一正则表达式获取待匹配目标文本,边框内的识别文本若确定有边框内的识别文本为所述待匹配目标文本,则获取相应的目标边框,将所述目标边框根据所述图片坐标调整策略进行坐标归一化调整得到调整后边框;
[0020]目标区域获取单元,用于若确定所述调整后边框中像素点标签的标签组合与所述待匹配目标文本之间的标签相似度超出预设的标签相似度阈值,将所述调整后边框中相应像素点的九宫格匹配相似度增加预设的置信度值,并将所述目标边框作为目标区域;以及
[0021]目标取值获取单元,用于获取与所述目标区域具有最近距离且边框的文本内容为数值的目标候选边框,将所述目标候选边框中的文本取值作为所述待匹配目标文本的目标取值。
[0022]第三方面,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于人工智能的电子发票信息抽取方法。
[0023]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于人工智能的电子发票信息抽取方法。
[0024]本专利技术实施例提供了一种基于人工智能的电子发票信息抽取方法、装置、计算机设备及存储介质,先是获取待识别电子发票图片的边框集合、各边框内的识别文本、相应的目标电子发票模板,然后将待识别电子发票图片进行坐标归一化调整得到调整后电子发票图片,之后基于调整后电子发票图片九宫格匹配相似度获取各像素点相应的九宫格匹配相似度和匹配标签,最后定位待匹配目标文本在边框集合的目标边框且确定调整后边框中像素点标签的标签组合与待匹配目标文本相同,将所述目标边框作为目标区域,并获目标区
域的目标取值。实现了在待识别电子发票自身识别的同时也借助模板来确认所提取信息是否确实是正确信息,从而通过结合模板的方式增加抽取信息置信度,其算法轻量简洁,且运行速度快,准确度高。
附图说明
[0025]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本专利技术实施例提供的基于人工智能的电子发票信息抽取方法的应用场景示意图;
[0027]图2为本专利技术实施例提供的基于人工智能的电子发票信息抽取方法的流程示意图;
[0028]图3a为本专利技术实施例提供的基于人工智能的电子发票信息抽取方法中待识别电子发票图片的示意图;
[0029]图3b为本专利技术实施例提供的基于人工智能的电子发票信息抽取方法中边框相应参数的示意图;...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的电子发票信息抽取方法,其特征在于,包括:响应于电子发票识别指令,获取与所述电子发票识别指令相应的待识别电子发票图片;通过光学字符识别模型获取所述待识别电子发票图片的边框集合及各边框内的识别文本,识别所述待识别电子发票图片得到电子发票省份信息,及获取与所述待识别电子发票图片相应的目标电子发票模板;将所述待识别电子发票图片根据预设的图片坐标调整策略进行坐标归一化调整得到调整后电子发票图片,并获取与所述目标电子发票模板相应的调整后目标发票模板;获取所述调整后电子发票图片中各像素点在调整后目标发票模板中相应目标像素点,根据各目标像素点及预设的九宫格投票匹配策略获取各像素点与相应目标像素点之间的九宫格匹配相似度和匹配标签;根据预设的第一正则表达式获取待匹配目标文本,若确定有边框内的识别文本为所述待匹配目标文本,则获取相应的目标边框,将所述目标边框根据所述图片坐标调整策略进行坐标归一化调整得到调整后边框;若确定所述调整后边框中像素点标签的标签组合与所述待匹配目标文本之间的标签相似度超出预设的标签相似度阈值,将所述调整后边框中相应像素点的九宫格匹配相似度增加预设的置信度值,并将所述目标边框作为目标区域;以及获取与所述目标区域具有最近距离且边框的文本内容为数值的目标候选边框,将所述目标候选边框中的文本取值作为所述待匹配目标文本的目标取值。2.根据权利要求1所述的基于人工智能的电子发票信息抽取方法,其特征在于,所述通过光学字符识别模型获取所述待识别电子发票图片的边框集合及各边框内的识别文本,识别所述待识别电子发票图片得到电子发票省份信息,及获取与所述待识别电子发票图片相应的目标电子发票模板,包括:通过光学字符识别模型获取所述待识别电子发票图片的边框集合,及所述边框集合中所包括每一边框内的识别文本;通过对所述待识别电子发票图片进行识别得到电子发票省份信息;在电子发票模板库中根据所述电子发票省份信息获取与所述待识别电子发票图片相应的目标电子发票模板。3.根据权利要求2所述的基于人工智能的电子发票信息抽取方法,其特征在于,所述通过对所述待识别电子发票图片进行识别得到电子发票省份信息,包括:获取所述待识别电子发票图片中的二维码,通过对所述二维码识别得到电子发票省份信息;或者获取所述边框集合中每一边框内的识别文本,若确定边框内的识别文本中存在省份名称,获取所述省份名称作为电子发票省份信息。4.根据权利要求1所述的基于人工智能的电子发票信息抽取方法,其特征在于,所述调整后目标发票模板是由所述目标电子发票模板根据所述图片坐标调整策略预先调整并存储;所述将所述待识别电子发票图片根据预设的图片坐标调整策略进行坐标归一化调整得到调整后电子发票图片,包括:
获取所述待识别电子发票图片中表格区域的左上角顶点,以所述左上角顶点作为新坐标系原点;获取所述待识别电子发票图片中表格区域上经过所述新坐标系原点的上横向边,以所述上横向边所在直线为新X轴;其中,以上横向边从左至右的方向为X轴正方向;获取所述待识别电子发票图片中表格区域上经过所述新坐标系原点的左纵向边,以所述左纵向边所在直线为新Y轴;其中,以左纵向边从上至下的方向为Y轴正方向;将所述待识别电子发票图片中各像素点的原始坐标根据所述图片坐标调整策略进行坐标归一化调整,得到各像素点分别对应的调整后坐标;根据所述待识别电子发票图片中各像素点的调整后坐标对所述待识别电子发票图片进行调整,得到调整后电子发票图片。5.根据权利要求4所述的基于人工智能的电子发票信息抽取方法,其特征在于,所述图片坐标调整策略的公式为:x
inew
=(int)dis
xi
(L/c);y
jnew
=(int)dis
yj
(L/c);其中,(x
inew
,y
jnew
)表示所述待识别电子发票图片中像素点(i,j)的原始坐标(x
i
,y
j
)经过坐标归一化调整得到的调整后坐标,dis
xi
表示原始坐标(x
i
,y
j
)与新X轴之间的距离,dis
yj
表示原始坐标(x
i
,y
j
)与新Y轴之间的距离,L表示所述待识别电子发票图片中二维码的平均边长,c为预设的常数值,int函数用于数值向下取整。6.根据权利要求1所述的基...

【专利技术属性】
技术研发人员:刘东煜曾增烽
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1