一种文档图像关键信息自动结构化方法及系统技术方案

技术编号:33072722 阅读:46 留言:0更新日期:2022-04-15 10:07
本发明专利技术提供了一种文档图像关键信息自动结构化方法及系统,属于字符识别技术领域。本发明专利技术采用光学字符识别文件中的文字,将文字整理为文本块,再通过文本切分模型及文本切分模型词典进行文本块切分,通过文本分类模型及文本分类模型词典对文本块进行分类,最后通过预测模型及预测模型词典对文本块进行预测,根据预测结果提取出符合规则的键值对数据;对提取的结构化数据进行预设格式处理后进行展示。本发明专利技术可实现任意文件类型的识别,并达到自动结构化输出结果的结构化识别方法,适用于大多数常见的列表型、表格型等多种样式的凭证报表,可以适应各种凭证报表的复杂场景,统一完成自动结构化输出,无需用户做方法配置和调整。无需用户做方法配置和调整。无需用户做方法配置和调整。

【技术实现步骤摘要】
一种文档图像关键信息自动结构化方法及系统


[0001]本专利技术涉及字符识别
,尤其涉及一种文档图像关键信息自动结构化方法及系统。

技术介绍

[0002]计算机文字识别,俗称光学字符识别,英文全称Optical Charater Recognition(简称OCR),它是利用光学技术和计算机技术把图纸上的文字以文本形式提取出来,并转换成人可以理解的格式的技术。在信息社会时代,每天会产生大量的票据、表单、证件数据,这些数据要电子化,需要利用光学字符识别技术进行提取录入。
[0003]随着行业的发展和技术的成熟,光学字符识别目前已经应用到了多个行业中,比如物流领域分拣快递,交通领域的车牌识别,金融领域支票单据的识别输入等等。但光学字符识别识别结果通常是一种按行输出的半结构化输出。
[0004]一般来讲,光学字符识别出来的结果是单纯的一行一行文字,这样业务处理起来会比较困难,若能识别成键

值形式的结构会比较好处理,比如识别一张火车票,火车票上面的各种信息较为固定,如果直接处理识别出来的一行行文字,因为文字需要本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档图像关键信息自动结构化方法,其特征在于,包括如下步骤:S100:获取文档的样本图像数据;S300:对样本图像进行方向校正和倾斜度校正预处理;S400:采用光学字符识别对样本图像中的文字进行识别,并按行整理为文本形式;S500:将文本进行预处理,得到以文本块为单位的文本数据;S600:将以文本块为单位的文件数据结合文本切分模型的模型词典,将每个文本块转化为一个数字序列,并得到每个数字序列对应的掩码序列、段序列和标签序列,输入机器学习模型进行处理,将机器学习模型输出根据掩码序列进行还原,得到各个文本块的处理结果,并根据标签序列进行文本块的切分;S700:根据文本分类模型词典对切分后的文本进行分类,并整合为一个一维数组;S800:根据各文本块之间的距离、宽度和高度,结合S700输出的一维数组,生成结构化提取输入信息,将其输入到结构化提取模型,对文本块进行预测,并根据预测结果提取出符合规则的键值对数据;S900:对提取的结构化数据进行预设格式处理后进行展示。2.根据权利要求1所述的文档图像关键信息自动结构化方法,其特征在于,步骤S100包括如下步骤:S101:读取多种文件格式的文件的文件数据;S102:通过设置文件中每页文件数据的ID,将文件拆分为单页,再将各单页转成图像数据。3.根据权利要求1所述的文档图像关键信息自动结构化方法,其特征在于,在S100和S300之间,还包括S200,加载通用文本识别模型、文本切分模型、文本分类模型和文本结构化提取模型及其配置文件,分别用于文本识别、文本切分、文本分类和文本结构化提取。4.根据权利要求3所述的文档图像关键信息自动结构化方法,其特征在于,步骤S300具体包括如下步骤:S301:通过版面分析判断图像是横向还是纵向,再通过光学字符识别判断图像是正向还是倒向,然后通过图像旋转使图像的方向一致;S302:利用框线信息或者文本信息,计算图像倾斜角度,具体包括通过通用文本识别模型检查文字和框线的倾向是否符合预设的正常倾向范围,再与预设的文字正常排布形式对比计算倾斜角度,根据倾斜角度进行图像旋转,消除图像倾斜。5.根据权利要求4所述的文档图像关键信息自动结构化方法,其特征在于,步骤S500具体包括:S501:对光学字符识别后整理的文本的进行文本分析,将所有文本块内容进行如下处理,包括:通过相对位置还原语序;将部分非法字符剔除;清除空文本块;对光学字符识别后整理的文本,按位置信息从左到右、从上到下的顺序以行为单位进行整理,若中间有表格,则同时以单元格为单位进行整理;S502:将步骤S501中得到的按行整理出的文本数据进一步处理,根据其行内文本的间
距变化进行分块处理,得到一组以文本块为单位的文本数据,文本块数量以S_N表示。6.根据权利要求5所述的文档图像关键信息自动结构化方法,其特征在于,步骤S600具体包括如下步骤:S601:加载文本切分模型配置、文本切分模型词典和切分预训练词向量,词向量维度值用S_D表示,文本切分模型词典中包括用来定义单词词性的S_K种标签;S602:将S502中得到的以文本块为单位的文本数据中的S_N个文本块逐个通过文本切分模型词典,以单字为单位逐个转换为其对应的词典索引,并按照文本切分模型预设的序列最长长度S_L将S_N个文本块各自的单字索引数组转换为S_N组第一数字序列s_data1_in,并构造出S_N组第一数字序列s_data1_in的各自的第一掩码序列s_data1_mask、第一段序列s_data1_segment和第一标签序列s_data1_label;S603:根据文本切分模型预设的批处理长度S_M,从S_N组第一数字序列中顺序选择S_M组第一数字序列,将S_M组第一数字序列中的每组数字序列与其对应的第一掩码序列s_data1_mask、第一段序列s_data1_segment、第一标签序列s_data1_label合为一组长为S_M*S_L*4的一维数组,作为文本切分模型单次运行的第一输入s_input1_ids;当S_N>S_M时,生成多个单次运行的第一输入s_input1_ids,当S_N不是S_M的整数倍或者S_N<S_M时,以小于S_M的数据量生成最后一次运行的第一输入s_input1_ids;S604:将每个文本切分模型单次运行的第一输入s_input1_ids分别输入文本切分模型,进行如下处理:将第一输入s_input1_ids与文本切分模型内初始变量进行线性运算得到一个S_L*S_M的隐层矩阵s_mat1,再使用隐层矩阵s_mat1、第一输入s_input1_ids及一个随机的隐层状态矩阵s_mat5分别与文本切分模型内参数进行运算,并分别得到S_L*S_M的隐层矩阵s_mat2、隐层矩阵s_mat3和隐层矩阵s_mat4,将隐层矩阵s_mat4提供给下一次运行的第一输入s_input1_ids重复上述处理过程,并在处理过程中由隐层矩阵s_mat4替换隐层矩阵s_mat5;S605:将隐层矩阵s_mat1、隐层矩阵s_mat2和隐层矩阵s_mat3通过嵌入文本切分模型词向量及编解码得到S_K个抽象后的特征向量矩阵s_mats1,完成向量特征的初步提取;S606:将S605中输出的s_mats1与文本切分模型中的S_K个权重矩阵s_w_mats相乘得到S_K个新的隐层矩阵s_mats2;S607:将S606中的隐层矩阵s_mats2连接并压缩降维得到一个L*K的压缩矩阵s_squeeze1,进一步提取向量特征;S608:将步骤S606中的隐层矩阵s_mats2和S607的压缩矩阵s_squeeze1经过循环神经网络处理,得到S_L*(S_M

1)*S_K的张量s_mat6和S_L*S_K的矩阵s_mat7;S609:将矩阵s_mat7结合维度值S_D做一次最大值降维运算,得到一个长为S_M的一维向量s_expand;S610:将张量s_mat6再经过循环神经网络处理并压缩降维,得到一个S_L*(S_M

1)的压缩矩阵s_squeeze2;S611:将压缩矩阵s_squeeze2与向量s_expand连接,得到S_L*S_M的第一结果矩阵s_matrst1;S612:将S604中的隐层矩阵s_mat2求和降维后得到一个长为S_L的数字序列,根据该数字序列,将步骤S611中得到的第一结果矩阵s_matrst1做序列反转,得到一个长为S_L*S_M
的一维数组s_mat1_result;S613:文本切分模型按照S604~S612的过程,将所有第一输入s_input_ids分批处理完成后,整合为一个S_L*S_N的结果数组s_mat1_results,作为文本切分模型输出结果;S614:将文本切分模型输出的结果数组s_mat1_results切分成S_N个长度为L的一维结果数组s_mat1_result,并逐个按照各一维结果数组s_mat1_result对应的掩码序列s_data1_mask中的数值还原出其对应的文本块的处理结果s_result;S615:根据与每个文本块的处理结果s_result相关的标签值,判定各文本块的切分点,并通过切分点的位置完成对各个文本块的切分,处理后的文本块数量以C_N表示。7.根据权利要求6所述的文档图像关键信息自动结构化方法,其特征在于,步骤S605具体包括如下步骤:S6051:将隐层矩阵s_mat1与隐层矩阵s_mat3通过文本切分模型词向量嵌入,生成一个S_L*S_M*S_D的词嵌入张量s_word_embedding1,经过一次层标准化得到一个S_L*S_M*S_D的词嵌入张量s_embedding1;S6052:将隐层矩阵s_mat1、隐层矩阵s_mat2及词嵌入张量s_embedding1通过模型编码器进行编码,得到一个S_L*S_M*S_D的编码结果s_encode_mat1;S6053:将S6052中编码后的张量矩阵s_encode_mat1经池化层进行降维和抽象处理,得到S_K个S_L*1的特征向量矩阵s_mats1。8.根据权利要求7所述的文档图像关键信息自动结构化方法,其特征在于,步骤S700具体包括如下步骤:S701:加载文本分类模型配置、文本分类模型词典和分类预训练词向量,词向量维度用C_D表示,文本分类模型词典中包括用来定义单词分类的C_K种标签;S702:将切分后的文本块通过文本分类模型词典,以单字为单位逐个转换为其对应的词典索引,并按照预设的序列最长长度C_L将C_N个文本块各自的单字索引数组转换为C_N组第二数字序列c_data2_in...

【专利技术属性】
技术研发人员:王燚王伟饶顶锋陶坚坚刘伟
申请(专利权)人:北京译图智讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1