【技术实现步骤摘要】
图像处理模型生成、图像处理方法、装置、终端设备及存储介质
本专利技术涉及图像处理
,特别是涉及一种图像处理模型生成方法、图像处理方法、装置、终端设备及存储介质。
技术介绍
自然场景文字是图像高层语义的一种重要载体,近些年自然场景图像中的文本识别技术越来越引起人们的重视。文本识别技术可以分为两个步骤:文本检测和文本识别,二者缺一不可,尤其是文本检测,是文本识别的前提条件。而传统的图像中的文本检测方法,通常是基于深度学习的文本检测方式,是通过采用多步策略进行的,在训练过程中,需要对其中的多个步骤进行调优,而其中多步调优的方式势必会影响最终的模型效果,导致图像中的文本检测效果较差,尤其对于图像中的长文本,检测错误率较高。
技术实现思路
本专利技术实施例所要解决的技术问题是提供一种图像处理模型生成方法、图像处理方法、装置、终端设备及存储介质,以解决现有技术中对图像中的文本检测效果较差,尤其对于图像中的长文本检测错误率较高的技术问题。为了解决上述问题,本专利技术实施例提供了一种图像处理模型生成方法,包括:将多个训练样本图像输入第一图像处理模型;其中,所述第一图像处理模型包 ...
【技术保护点】
1.一种图像处理模型生成方法,其特征在于,包括:将多个训练样本图像输入第一图像处理模型;其中,所述第一图像处理模型包括维度转换层和输出层,所述训练样本图像包括多个原始文本框中每个原始文本框的顶点的初始坐标;调用所述维度转换层,对每个所述训练样本图像对应的第一四维特征进行维度合并处理,得到各所述训练样本图像对应的第二四维特征;调用所述输出层,对所述第二四维特征进行卷积运算,生成与每个所述训练样本图像对应的预测图像;所述预测图像包含多个检测文本框中每个检测文本框的顶点的预测坐标;基于各所述初始坐标以及各所述预测坐标,获取所述第一图像处理模型的损失值;在所述损失值处于预设范围内的 ...
【技术特征摘要】
1.一种图像处理模型生成方法,其特征在于,包括:将多个训练样本图像输入第一图像处理模型;其中,所述第一图像处理模型包括维度转换层和输出层,所述训练样本图像包括多个原始文本框中每个原始文本框的顶点的初始坐标;调用所述维度转换层,对每个所述训练样本图像对应的第一四维特征进行维度合并处理,得到各所述训练样本图像对应的第二四维特征;调用所述输出层,对所述第二四维特征进行卷积运算,生成与每个所述训练样本图像对应的预测图像;所述预测图像包含多个检测文本框中每个检测文本框的顶点的预测坐标;基于各所述初始坐标以及各所述预测坐标,获取所述第一图像处理模型的损失值;在所述损失值处于预设范围内的情况下,将所述第一图像处理模型作为目标图像处理模型。2.根据权利要求1所述的方法,其特征在于,所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层;所述调用所述维度转换层,对每个训练样本图像对应的第一四维特征进行维度合并处理,得到第二四维特征,包括:对所述第一四维特征的第一维的特征和第二维的特征进行合并处理,生成第一初始三维特征;调用所述第一双向长短时记忆网络层,提取并输出所述第一初始三维特征中的竖向的初始时间序列特征;所述竖向的初始时间序列特征为四维特征;对所述竖向的初始时间序列的第一维的特征和第三维的特征进行合并处理,生成第二初始三维特征;调用所述第二双向长短时记忆网络层,提取并输出所述第二初始三维特征中的横向的初始时间序列特征,将所述横向的初始时间序列特征作为所述第二四维特征。3.一种图像处理方法,其特征在于,包括:将第一待处理图像输入预先训练好的目标图像处理模型;其中,所述目标图像处理模型包括维度转换层和输出层;调用所述维度转换层,对所述第一待处理图像对应的第一四维特征进行维度合并处理,得到第二四维特征;调用所述输出层,对所述第二四维特征进行卷积运算,生成第二待处理图像;其中,所述第二待处理图像包含多个文本框对应顶点的坐标值;依据各所述文本框对应顶点的坐标值,对各所述文本框中的至少两个所述文本框进行合并处理,生成至少一个目标文本框;输出所述至少一个目标文本框。4.根据权利要求3所述的方法,其特征在于,所述维度转换层包括第一双向长短时记忆网络层和第二双向长短时记忆网络层;所述调用所述维度转换层,对所述第一待处理图像对应的第一四维特征进行维度合并处理,得到第二四维特征,包括:对所述第一四维特征的第一维的特征和第二维的特征进行合并处理,生成第一三维特征;调用所述第一双向长短时记忆网络层,提取并输出所述第一三维特征中的竖向的时间序列特征;所述竖向的时间序列特征为四维特征;对所述竖向的时间序列特征的第一维的特征和第三维的特征进行合并处理,生成第二三维特征;调用所述第二双向长短时记忆网络层,提取并输出所述第二三维特征中的横向的时间序列特征,将所述横向的时间序列特征作为所述第二四维特征。5.根据权利要求3所述的方法,其特征在于,所述调用所述输出层,对所述第二四维特征进行卷积运算,生成第二待处理图像,包括:调用所述输出层,检测出所述第二四维特征中的多个文本特征;获取所述多个文本特征中处于同一行中不间断的第一文本特征,及同一行中间断的多个第二文本特征;生成包含所述第一文本特征和各所述第二文本特征的最小的文本框,得到添加有文本框的三维特征;输出所述添加有文本框的三维特征,得到所述第二待处理图像。6.根据权利要求3所述的方法,其特征在于,所述依据各所述文本框对应顶点的坐标值,对各所述文本框中的至少两个所述文本框进行合并处理,生成至少一个目标文本框,包括:获取各所述文本框中的各有效文本框;依据各所述有效文本框对应顶点的坐标值,获取各所述有效文本框中相邻的两个有效文本框;对所述相邻的两个有效文本框进行合并处理,生成所述目标文本框。7.根据权利要求6所述的方法,其特征在于,所述对所述相邻的两个有效文本框进行合并处理,生成所述目标文本框,包括:依据所述相邻的两个有效文本框的各顶点分别对应的坐标,获取最大横坐标、最小横坐标、最大纵坐标和最小纵坐标;依据所述最大横坐标、所述最小横坐标、所述最大纵坐标和所述最小纵坐标,生成第一目标文本框;获取所述相邻的两个有效文本框分别对应的分数值;对所述相邻的两个有效文本框和所述分数值进行加权平均处理,生成第二目标文本框;获取所述第一目标文本框和所述第二目标文本框分别对应的第一目标分数值和第二目标分数值;对所述第一目标文本框、所述第二目标文本框、所述第一目标分数值和所述第二目标分数值进行加权平均处理,生成所述目标文本框。8.根据权利要求3所述的方法,其特征在于,在所述依据各所述文本框对应顶点的坐标值,对各所述文本框中的至少两个所述文本框进行合并处理,生成至少一个目标文本框之后,还包括:从各所述目标文本框中,获取位于所述第二待处理图像的预设区域内至少一个目标有效文本框;依据各所述目标有效文本框对应顶点的坐标值,计算各所述目标有效文本框的高度值;依据各所述高度值,计算得到平均高度值;计算相邻两个所述目标有效文本框之间的间隔距离;在所述间隔距离小于所述平均高度值的情况下,合并相邻两个所述目标有效文本框;所述输出所述至少一个目标文本框,包括:依据各所述目标有效文本框在所述第二待处理图像中的位置信息,对各所述目标有效文本框进行排序;输出排序后的各所述目标有效文本框。9.一种图像处理模型生成装置,其特征在于,包括:样本图像输入模块,用于将多个训练样本图像输入第一图像处理模型;其中,所述第一图像处理模型包括维度转换层和输出层,所述训练样本图像包括多个原始文本框中每个原始文本框的顶点的初始坐标;维度合并处理模块,用于调用所述维度转换层,对每个所述训练样本图像对应的第一四维特征进行维度合并处理,得到各所述训练样本图像对应的第二四维特征;预测图像生成模块,用于调用所述输出层,对所述第二四维特征进行卷积运算,生成与每个所述训练样本图像对应的预测图像;所述预测图像包含多个检测文本框中每个检...
【专利技术属性】
技术研发人员:涂必超,陈平,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。