样本处理方法、装置、计算机可读介质及电子设备制造方法及图纸

技术编号:30438223 阅读:8 留言:0更新日期:2021-10-24 17:42
本公开的实施例提供了一种应用于图像区域规划模型训练的样本处理方法、应用于图像区域规划模型训练的样本处理装置、计算机可读介质及电子设备,涉及图像处理技术领域,该方法包括:识别样本图像中各文本框,并根据各文本框确定样本图像对应的图像特征、语义特征以及预设特征并融合,得到样本图像的综合特征;基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵;根据各文本框的预设标签、样本图像的综合特征和关系矩阵训练图像区域规划模型。可见,实施本申请的技术方案,可以训练得到能划分出图像中需要进行结构化信息提取的有效区域的图像区域规划模型,基于图像区域规划模型可以提升信息提取效率和精度。像区域规划模型可以提升信息提取效率和精度。像区域规划模型可以提升信息提取效率和精度。

【技术实现步骤摘要】
样本处理方法、装置、计算机可读介质及电子设备


[0001]本公开涉及图像处理
,具体而言,涉及一种应用于图像区域规划模型训练的样本处理方法、应用于图像区域规划模型训练的样本处理装置、计算机可读介质及电子设备。

技术介绍

[0002]对于图像中文字的提取,一般需要人为手动将照片中的文字输入标准化的列表,以通过结构化信息的方式统一对照片中文字进行标准化存储。但是,人工提取信息通常会存在效率较低的问题。为了解决这个问题,一些厂商设计出自动化提取图像文本信息的模型,用于基于一个提取标准进行自动化的图像文本信息提取,但是,图像中文字排版一般较为多样,通过统一的提取标准也容易造成提取精度较低的问题。
[0003]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0004]本公开实施例的目的在于提供一种应用于图像区域规划模型训练的样本处理方法、应用于图像区域规划模型训练的样本处理装置、计算机可读介质及电子设备,可以训练得到能划分出图像中需要进行结构化信息提取的有效区域的图像区域规划模型,基于训练出的图像区域规划模型可以提升针对图像的信息提取效率,并提升结构化信息提取精度,降低对于算力的浪费。
[0005]可以通过训练图像区域规划模型解决人工输入信息效率较低的问题,实现对于结构化信息的自动提取,提升结构化信息提取效率。
[0006]本公开实施例的第一方面提供了一种应用于图像区域规划模型训练的样本处理方法,其中的图像区域规划模型用于规划出图像中包含结构化信息的区域,该方法包括:
[0007]识别样本图像中各文本框,并根据各文本框确定样本图像对应的图像特征、语义特征以及预设特征;
[0008]将样本图像对应的图像特征、语义特征以及预设特征进行融合,得到样本图像的综合特征;
[0009]根据各文本框在样本图像中的位置确定用于表征各文本框之间位置关系的文本框参数,并基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵;
[0010]根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型。
[0011]根据本公开实施例的第二方面,提供一种应用于图像区域规划模型训练的样本处理装置,其中的图像区域规划模型用于规划出图像中包含结构化信息的区域,该装置包括:
[0012]文本框识别单元,用于识别样本图像中各文本框;
[0013]特征提取单元,用于根据各文本框确定样本图像对应的图像特征、语义特征以及
预设特征;
[0014]特征融合单元,用于将样本图像对应的图像特征、语义特征以及预设特征进行融合,得到样本图像的综合特征;
[0015]参数确定单元,用于根据各文本框在样本图像中的位置确定用于表征各文本框之间位置关系的文本框参数,并基于样本图像的综合特征和文本框参数确定每两个文本框之间的关系矩阵;
[0016]分类器训练单元,用于根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型。
[0017]在本公开的一种示例性实施例中,上述装置还包括:
[0018]区域划分单元,用于在分类器训练单元根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型之后,根据训练后的图像区域规划模型对接收到的待处理图像进行区域划分,得到区域规划结果;
[0019]信息识别单元,用于根据区域规划结果提取待处理图像中各区域的文本信息;其中,文本信息包括字段和字段内容中至少一种;
[0020]结构化信息提取单元,用于根据文本信息生成待处理图像对应的结构化信息。
[0021]在本公开的一种示例性实施例中,特征提取单元根据各文本框确定样本图像对应的图像特征,包括:
[0022]通过图像区域规划模型中的图像特征提取网络提取各文本框分别对应的子图像特征;
[0023]根据子图像特征构建样本图像对应的图像特征。
[0024]在本公开的一种示例性实施例中,特征提取单元根据各文本框确定样本图像对应的语义特征,包括:
[0025]确定各文本框在样本图像中的位置信息;
[0026]将位置信息输入图像区域规划模型中的语义特征提取网络,以使得语义特征提取网络根据位置信息提取各文本框分别对应的子语义特征;
[0027]根据子语义特征构建样本图像对应的语义特征。
[0028]在本公开的一种示例性实施例中,特征提取单元根据各文本框确定样本图像对应的预设特征,包括:
[0029]对各文本框进行包含关系判定,得到每个文本框对应的多个判定结果;
[0030]根据每个文本框对应的多个判定结果构建样本图像的预设特征;
[0031]其中,包含关系判定包括以下至少一种:判定对应的文本框与特定词语的包含关系、判定对应的文本框与特定字符的包含关系、判定对应的文本框与特定数字的包含关系。
[0032]在本公开的一种示例性实施例中,参数确定单元根据各文本框在样本图像中的位置确定用于表征各文本框之间位置关系的文本框参数,包括:
[0033]确定各文本框相对于样本图像的中心点位置;
[0034]根据各文本框的中心点位置确定各文本框之间的水平距离和垂直距离;
[0035]将各文本框之间的水平距离和垂直距离确定为文本框参数。
[0036]在本公开的一种示例性实施例中,分类器训练单元根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵训练图像区域规划模型,包括:
[0037]根据各文本框的预设标签、样本图像的综合特征和每两个文本框之间的关系矩阵调整图像区域规划模型的权重参数,直到图像区域规划模型对应的损失函数收敛为止。
[0038]根据本公开实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述实施例中第一方面的应用于图像区域规划模型训练的样本处理方法。
[0039]根据本公开实施例的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现如上述实施例中第一方面的应用于图像区域规划模型训练的样本处理方法。
[0040]根据本申请的第五方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的各种可选实现方式中提供的方法。
[0041]本公开实施例提供的技术方案可以包括以下有益效果:
[0042]在本公开的一些实施例所提供的技术方案,具体包括:识别样本图像中各文本框,并根据各文本框确定样本图像对应的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于图像区域规划模型训练的样本处理方法,其特征在于,所述图像区域规划模型用于规划出图像中包含结构化信息的区域,所述方法包括:识别样本图像中各文本框,并根据所述各文本框确定所述样本图像对应的图像特征、语义特征以及预设特征;将所述样本图像对应的图像特征、语义特征以及预设特征进行融合,得到所述样本图像的综合特征;根据所述各文本框在所述样本图像中的位置确定用于表征所述各文本框之间位置关系的文本框参数,并基于所述样本图像的综合特征和所述文本框参数确定每两个文本框之间的关系矩阵;根据所述各文本框的预设标签、所述样本图像的综合特征和每两个文本框之间的关系矩阵训练所述图像区域规划模型。2.根据权利要求1所述的方法,其特征在于,根据所述各文本框的预设标签、所述样本图像的综合特征和每两个文本框之间的关系矩阵训练所述图像区域规划模型之后,所述方法还包括:根据训练后的图像区域规划模型对接收到的待处理图像进行区域划分,得到区域规划结果;根据所述区域规划结果提取所述待处理图像中各区域的文本信息;其中,所述文本信息包括字段和字段内容中至少一种;根据所述文本信息生成所述待处理图像对应的结构化信息。3.根据权利要求1所述的方法,其特征在于,根据所述各文本框确定所述样本图像对应的图像特征,包括:通过所述图像区域规划模型中的图像特征提取网络提取所述各文本框分别对应的子图像特征;根据所述子图像特征构建所述样本图像对应的图像特征。4.根据权利要求1所述的方法,其特征在于,根据所述各文本框确定所述样本图像对应的语义特征,包括:确定所述各文本框在所述样本图像中的位置信息;将所述位置信息输入所述图像区域规划模型中的语义特征提取网络,以使得所述语义特征提取网络根据所述位置信息提取所述各文本框分别对应的子语义特征;根据所述子语义特征构建所述样本图像对应的语义特征。5.根据权利要求1所述的方法,其特征在于,根据所述各文本框确定所述样本图像对应的预设特征,包括:对所述各文本框进行包含关系判定,得到每个文本框对应的多个判定结果;根据每个文本框对应的多个判定结果构建所述样本图像的预设特征;其中,所述包含关系判定包括以下至少一种:判定对应的文本...

【专利技术属性】
技术研发人员:刘昊岳肖杨付晓刘设伟
申请(专利权)人:泰康在线财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1