一种票据图像文本信息的结构化抽取方法技术

技术编号:25043953 阅读:23 留言:0更新日期:2020-07-29 05:34
本发明专利技术提供一种票据图像文本信息的结构化抽取方法,利用顺次邻近算子可以依据文本在图像上的间隔规律来形成文本字符串,并基于不同字符串的交叠和长度情况对冗余内容进行删除,实现文本信息的结构化抽取。能够自动的基于票据上文本字符邻近、排列规律情况的结构化规律,并基于结构输出文本内容,防止票据上不同文本的排列结构对票据文本内容抽取造成的干扰,提高票据图像文本信息抽取质量。

【技术实现步骤摘要】
一种票据图像文本信息的结构化抽取方法
本专利技术涉及图像内容的理解和识别方法,具体涉及一种票据图像文本信息的结构化抽取方法。
技术介绍
随着财务管理和审批流程的电子化,很多系统都需要将票据的内容上传到系统中,这些内容通常为一个图像文件,抽取出这些图像文件中的关键文本信息对于理解票据的内容,汇总和发现财务数据中的规律十分重要,因此非常有必要进行票据图像文本信息的抽取。当前OCR技术已经十分成熟,能够以较高的精度在图像中识别出字符内容。然而面对票据的图像文件,直接使用OCR技术会遇到以下问题:(1)票据中的文本大小不一、间距以及字体不一致,这会使得在识别出的文本之中包含较多的无用制表符、空格。(2)票据中文字按照不同间隔规律和位置排列,还有可能出现互相遮挡与覆盖的问题(如盖章位置),这些问题使得不相关位置的文本混杂在一起,直接破坏了其中的信息。以上问题直接导致了OCR技术识别出的文本内容出现较大偏差难以理解。为了解决上述问题,目前较常用的方法是:(1)自己定义识别模板,在模板中逐一定义要识别的位置,基于这些位置将文本抽取出来分组并输出;这种方法面对单一类型的文档较为有效;然而,面对票据图像,票据种类多种多样,同一类型票据由于来源地区和行业的不同其内容和位置也会不一样,实际工作中逐一为所有票据定义识别模板难于实现。(2)利用人工智能识别表格,基于表格框架来将文本内容抽取出来,由于表格颜色、线型、拍照角度等问题,目前表格识别的精度也存在偏差,基于表格识别之后的位置文本识别可能会引起误差的放大,从而丢失部分关键信息。<br>因此十分有必要提出一种票据图像文本信息的结构化抽取方法,能够自动的基于票据上文本字符邻近、排列规律情况的结构化规律,并基于结构输出文本内容。
技术实现思路
:针对现有技术中存在的问题,本专利技术提供一种票据图像文本信息的结构化抽取方法,利用顺次邻近算子可以依据文本在图像上的间隔规律来形成文本字符串,并基于不同字符串的交叠和长度情况对冗余内容进行删除,实现文本信息的结构化抽取。本专利技术提供的一种票据图像文本信息的结构化抽取方法,技术解决方案包括以下步骤:S1,输入待识别票据影像Image;构建票据字符列表TextInfo,计算最大距离因子MaxP,计算最大纵向因子MaxZ,计算混杂容忍因子MaxH,对TextInfo进行排序,计算TextInfo的元素个数TextNUM;S101,输入待识别票据影像Image,利用OCR算法识别Image中的每一个字符,在删除掉所有标点符号、空格以及回车之后,将所有字符存储在票据字符列表TextInfo之中;文字列表TextInfo为一个列表,该列表的每一个元素为一个结构体TextStruct,TextStruct包含以下字段内容:SChar:结构体对应字符内容;SX:该字符中心点在Image上的X坐标;SY:该字符中心点在Image上的Y坐标;S102,获得待识别票据影像Image的宽度IWidth,获得待识别票据影像Image的高度IHeight;获得票据字符列表TextInfo的元素个数INumber;S103,计算最大距离因子MaxP,对应的公式为:其中,round为进行四舍五入;S104,计算最大纵向因子MaxZ,对应公式为:S105,计算混杂容忍因子MaxH,对应的公式为:其中tanh为双曲正切函数;S106,根据TextInfo中每一个元素的SX值,按照从小到大对TextInfo所有元素进行排序;S2,构建顺次邻近算子NOperator,该算子的输入为位置整型数NPos,该算子的输出为与票据字符列表TextInfo上第NPos个字符顺次邻近的所有字符所构成的串结构体StringStruct;S201,构建位置邻居字符算子NOperator,该算子的输入为位置整型数NPos;S202,建立串结构体StringStruct,StringStruct包括如下内容:DList:内容字符,建立时为空字符串;DPosList:位置列表,建立时为空列表;DJJ:字符间距,建立时的值0;DSX:起始X值;DSY:起始Y值;DEX:结束X值;DEY:结束Y值;DINUM:结构体表达的字符个数,建立时的值0;S203,设置StringStruct.DList=TextInfo[NPos].SChar;S204,设置StringStruct.DSX=TextInfo[NPos].SX;StringStruct.DSY=TextInfo[NPos].SY;S205,设置StringStruct.DEX=TextInfo[NPos].SX;StringStruct.DEY=TextInfo[NPos].SY;S206,将NPos加入到StringStruct.DPosList之中;S207,初始化顺次邻近算子计数器NCounter=NPos+1;S208,如果NCounter>TextNUM则转到S219,否则转到S209;S209,计算顺次邻近算子第一变量ND1=ABS(TextInfo[NCounter].SX-StringStruct.DEX);其中ABS为计算绝对值;S210,计算顺次邻近算子第二变量ND2=ABS(TextInfo[NCounter].SY-StringStruct.DEY));其中ABS为计算绝对值;S211,如果ND1<MaxP并且ND2<MaxZ则转到S212,否则转到S218;S212,如果StringStruct.DPosList的元素个数大于1则转到S213,否则转到S214;S213,计算公式ABS(ND1-StringStruct.DJJ)/StringStruct.DJJ,如果该公式的值大于MaxH则转到S218,否则转到S214;S214,设置StringStruct.DList=StringStruct.DList+TextInfo[NCounter].SChar;S215,设置StringStruct.DEX=TextInfo[NCounter].SX;StringStruct.DEY=TextInfo[NCounter].SY;S216,将NCounter加入到StringStruct.DPosList之中;S217,StringStruct.DJJ=ND1;S218,设置NCounter=NCounter+1,如果NCounter小于等于TextNUM则转到S208,否则转到S219;S219,StringStruct.DINUM=StringStruct.DPosList的元素个数;S220,输出StringStruct;S3,利用顺次邻近算子NOpe本文档来自技高网
...

【技术保护点】
1.一种票据图像文本信息的结构化抽取方法,其特征在于包括以下步骤:/nS1, 输入待识别票据影像Image;构建票据字符列表TextInfo,计算最大距离因子MaxP,计算最大纵向因子MaxZ,计算混杂容忍因子MaxH,对TextInfo进行排序,计算TextInfo的元素个数TextNUM;/nS101,输入待识别票据影像Image,利用OCR算法识别Image中的每一个字符,在删除掉所有标点符号、空格以及回车之后,将所有字符存储在票据字符列表TextInfo之中;/n文字列表TextInfo为一个列表,该列表的每一个元素为一个结构体TextStruct,TextStruct包含以下字段内容:/nSChar:结构体对应字符内容;/nSX: 该字符中心点在Image上的X坐标;/nSY:该字符中心点在Image上的Y坐标;/nS102,获得待识别票据影像Image的宽度IWidth,获得待识别票据影像Image的高度IHeight;获得票据字符列表TextInfo的元素个数INumber;/nS103,计算最大距离因子MaxP,对应的公式为:/n

【技术特征摘要】
1.一种票据图像文本信息的结构化抽取方法,其特征在于包括以下步骤:
S1,输入待识别票据影像Image;构建票据字符列表TextInfo,计算最大距离因子MaxP,计算最大纵向因子MaxZ,计算混杂容忍因子MaxH,对TextInfo进行排序,计算TextInfo的元素个数TextNUM;
S101,输入待识别票据影像Image,利用OCR算法识别Image中的每一个字符,在删除掉所有标点符号、空格以及回车之后,将所有字符存储在票据字符列表TextInfo之中;
文字列表TextInfo为一个列表,该列表的每一个元素为一个结构体TextStruct,TextStruct包含以下字段内容:
SChar:结构体对应字符内容;
SX:该字符中心点在Image上的X坐标;
SY:该字符中心点在Image上的Y坐标;
S102,获得待识别票据影像Image的宽度IWidth,获得待识别票据影像Image的高度IHeight;获得票据字符列表TextInfo的元素个数INumber;
S103,计算最大距离因子MaxP,对应的公式为:


其中,round为进行四舍五入;
S104,计算最大纵向因子MaxZ,对应公式为:


S105,计算混杂容忍因子MaxH,对应的公式为:


其中tanh为双曲正切函数;
S106,根据TextInfo中每一个元素的SX值,按照从小到大对TextInfo所有元素进行排序;
S2,构建顺次邻近算子NOperator,该算子的输入为位置整型数NPos,该算子的输出为与票据字符列表TextInfo上第NPos个字符顺次邻近的所有字符所构成的串结构体StringStruct;
S201,构建位置邻居字符算子NOperator,该算子的输入为位置整型数NPos;
S202,建立串结构体StringStruct,StringStruct包括如下内容:
DList:内容字符,建立时为空字符串;
DPosList:位置列表,建立时为空列表;
DJJ:字符间距,建立时的值0;
DSX:起始X值;
DSY:起始Y值;
DEX:结束X值;
DEY:结束Y值;
DINUM:结构体表达的字符个数,建立时的值0;
S203,设置StringStruct.DList=TextInfo[NPos].SChar;
S204,设置StringStruct.DSX=TextInfo[NPos].SX;StringStruct.DSY=TextInfo[NPos].SY;
S205,设置StringStruct.DEX=TextInfo[NPos].SX;StringStruct.DEY=TextInfo[NPos].SY;
S206,将NPos加入到StringStruct.DPosList之中;
S207,初始化顺次邻近算子计数器NCounter=NPos+1;
S208,如果NCounter>TextNUM则转到S219,否则转到S209;
S209,计算顺次邻近算子第一变量ND1=ABS(TextInfo[NCounter].SX-StringStruct.DEX);其中ABS为计算绝对值;
S210,计算顺次邻近算子第二变量ND2=ABS(TextInfo[NCounter].SY-StringStruct.DEY));其中ABS为计算绝对值;
S211,如果ND1<MaxP并且ND2<MaxZ则转到S212,否则转到S218;
S212,如果...

【专利技术属性】
技术研发人员:牛殿峰赵合喜张雪张明辉潘建宏陈雪莹迟昊陶琳王芪张宏达张佳琪高明仕蔡雪梅蔡新焦剑锋
申请(专利权)人:国网吉林省电力有限公司国网吉林省电力有限公司电力科学研究院
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1