基于人工智能的电子发票信息抽取方法、装置及设备制造方法及图纸

技术编号：31802920 阅读：58 留言：0更新日期：2022-01-08 11:04

本发明专利技术涉及人工智能，提供了基于人工智能的电子发票信息抽取方法、装置、设备及介质，先是获取待识别电子发票图片的边框集合、各边框内的识别文本、相应的目标电子发票模板，然后将待识别电子发票图片进行坐标归一化调整得到调整后电子发票图片，之后基于调整后电子发票图片获取各像素点相应的九宫格匹配相似度和匹配标签，最后定位待匹配目标文本在边框集合的目标边框且确定调整后边框中像素点标签的标签组合与待匹配目标文本相同，将所述目标边框作为目标区域，并获目标区域的目标取值。实现了基于模板的信息抽取，其算法轻量简洁，且运行速度快，准确度高。准确度高。准确度高。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的电子发票信息抽取方法、装置及设备

[0001]本专利技术涉及人工智能的图像识别领域，尤其涉及一种基于人工智能的电子发票信息抽取方法、装置、计算机设备及存储介质。

技术介绍

[0002]目前，文档智能主要是指对于扫描文档所包含的文本、排版信息，通过人工智能技术进行理解、分类、提取以及信息归纳。根据文档智能技术所得到的结构化数据也可进行更上层的智能化应用，如：信息挖掘、智能决策等。关于文档智能的研究在近年来逐渐兴起。
[0003]现阶段，存在一些针对结构化信息提取的研究，这些研究可以解决一些特定的任务，如：(1)给出了一种票据文档信息抽取算法，给定某些字段，可以自动从文档中抽取相应的值；(2)为影像中的每个字赋予一个综合“布局信息”和“语义信息”的向量表示，从而为下游任务提供帮助。
[0004]但是目前针对医疗电子发票的结构化信息提取，一般是基于OCR(Optical Character Recognition，光学字符识别)技术直接进行文本识别，若电子发票存在图片扭曲等情况，仅仅是基于OCR识别技术会导致识别准确率不高。

技术实现思路

[0005]本专利技术实施例提供了一种基于人工智能的电子发票信息抽取方法、装置、计算机设备及存储介质，旨在解决现有技术中对医疗电子发票的结构化信息提取，一般是基于OCR技术直接进行文本识别，若电子发票存在图片扭曲等情况，仅仅是基于OCR识别技术会导致识别准确率不高的问题。
[0006]第一方面，本专利技术实施例提供了一种基于人工智能的

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的电子发票信息抽取方法，其特征在于，包括：响应于电子发票识别指令，获取与所述电子发票识别指令相应的待识别电子发票图片；通过光学字符识别模型获取所述待识别电子发票图片的边框集合及各边框内的识别文本，识别所述待识别电子发票图片得到电子发票省份信息，及获取与所述待识别电子发票图片相应的目标电子发票模板；将所述待识别电子发票图片根据预设的图片坐标调整策略进行坐标归一化调整得到调整后电子发票图片，并获取与所述目标电子发票模板相应的调整后目标发票模板；获取所述调整后电子发票图片中各像素点在调整后目标发票模板中相应目标像素点，根据各目标像素点及预设的九宫格投票匹配策略获取各像素点与相应目标像素点之间的九宫格匹配相似度和匹配标签；根据预设的第一正则表达式获取待匹配目标文本，若确定有边框内的识别文本为所述待匹配目标文本，则获取相应的目标边框，将所述目标边框根据所述图片坐标调整策略进行坐标归一化调整得到调整后边框；若确定所述调整后边框中像素点标签的标签组合与所述待匹配目标文本之间的标签相似度超出预设的标签相似度阈值，将所述调整后边框中相应像素点的九宫格匹配相似度增加预设的置信度值，并将所述目标边框作为目标区域；以及获取与所述目标区域具有最近距离且边框的文本内容为数值的目标候选边框，将所述目标候选边框中的文本取值作为所述待匹配目标文本的目标取值。2.根据权利要求1所述的基于人工智能的电子发票信息抽取方法，其特征在于，所述通过光学字符识别模型获取所述待识别电子发票图片的边框集合及各边框内的识别文本，识别所述待识别电子发票图片得到电子发票省份信息，及获取与所述待识别电子发票图片相应的目标电子发票模板，包括：通过光学字符识别模型获取所述待识别电子发票图片的边框集合，及所述边框集合中所包括每一边框内的识别文本；通过对所述待识别电子发票图片进行识别得到电子发票省份信息；在电子发票模板库中根据所述电子发票省份信息获取与所述待识别电子发票图片相应的目标电子发票模板。3.根据权利要求2所述的基于人工智能的电子发票信息抽取方法，其特征在于，所述通过对所述待识别电子发票图片进行识别得到电子发票省份信息，包括：获取所述待识别电子发票图片中的二维码，通过对所述二维码识别得到电子发票省份信息；或者获取所述边框集合中每一边框内的识别文本，若确定边框内的识别文本中存在省份名称，获取所述省份名称作为电子发票省份信息。4.根据权利要求1所述的基于人工智能的电子发票信息抽取方法，其特征在于，所述调整后目标发票模板是由所述目标电子发票模板根据所述图片坐标调整策略预先调整并存储；所述将所述待识别电子发票图片根据预设的图片坐标调整策略进行坐标归一化调整得到调整后电子发票图片，包括：
获取所述待识别电子发票图片中表格区域的左上角顶点，以所述左上角顶点作为新坐标系原点；获取所述待识别电子发票图片中表格区域上经过所述新坐标系原点的上横向边，以所述上横向边所在直线为新X轴；其中，以上横向边从左至右的方向为X轴正方向；获取所述待识别电子发票图片中表格区域上经过所述新坐标系原点的左纵向边，以所述左纵向边所在直线为新Y轴；其中，以左纵向边从上至下的方向为Y轴正方向；将所述待识别电子发票图片中各像素点的原始坐标根据所述图片坐标调整策略进行坐标归一化调整，得到各像素点分别对应的调整后坐标；根据所述待识别电子发票图片中各像素点的调整后坐标对所述待识别电子发票图片进行调整，得到调整后电子发票图片。5.根据权利要求4所述的基于人工智能的电子发票信息抽取方法，其特征在于，所述图片坐标调整策略的公式为：x
inew
＝(int)dis
xi
(L/c)；y
jnew
＝(int)dis
yj
(L/c)；其中，(x
inew
,y
jnew
)表示所述待识别电子发票图片中像素点(i，j)的原始坐标(x
i
，y
j
)经过坐标归一化调整得到的调整后坐标，dis
xi
表示原始坐标(x
i
，y
j
)与新X轴之间的距离，dis
yj
表示原始坐标(x
i
，y
j
)与新Y轴之间的距离，L表示所述待识别电子发票图片中二维码的平均边长，c为预设的常数值，int函数用于数值向下取整。6.根据权利要求1所述的基...

【专利技术属性】
技术研发人员：刘东煜，曾增烽，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人