本发明专利技术提供的一种文本识别模型训练方法、文本定位方法及相关装置,该文本识别模型训练方法包括:获取预设数量的训练样本图像;每张样本图像具有文本信息;将训练样本图像输入识别网络进行训练;当训练的步长达到目标训练步长时,则将识别网络作为文本识别模型;目标训练步长用于指示识别网络即将处于收敛状态。本发明专利技术将带有任意文本信息的训练样本输入到识别网络中训练到目标训练步长后,得到文本识别模型,通过控制训练步长,在模型的损失函数快速下降之前停止训练过程,此时获得的文本识别模型学习到的是字体笔画类型的纹理结构,能够识别出没有经过训练的字体格式,提高了模型的泛化能力,能够准确识别字体,进而提高了字体定位效率。
【技术实现步骤摘要】
文本识别模型训练方法、文本定位方法及相关装置
本专利技术涉及数据处理
,具体而言,涉及一种文本识别模型训练方法、文本定位方法及相关装置。
技术介绍
网络上电影、短视频越来越丰富,观看视频已经成为人们娱乐、获取知识的主要窗口之一。为了方便用户理解视频内容,视频画面上还可以显示字幕信息。在观看或者使用一些视频时,部分用户出于不同的原因并不需要在视频中看到字幕,部分用户可能需要提取字幕信息另做他用。因此,针对这部分群体就有遮挡或者去除字幕的需要。在现有技术中,要想提取或者遮挡视频中的字幕,首先需要先定位到字幕在图像中的位置。目前的文本识别模型泛化能力低,仅仅能够识别现存的几千种文本格式,对于那些没有遍历到的字体型反而无法准确识别,降低了文本定位效率。
技术实现思路
有鉴于此,本专利技术提供一种文本识别模型训练方法、文本定位方法及相关装置,用以识别各种形式的文本,提供文本识别的准确度,进而降低文本定位效率。本专利技术技术方案如下:第一方面,本专利技术提供一种文本识别模型训练方法,所述方法包括:获取预设数量的训练样本图像;每张所述样本图像具有文本信息;将所述训练样本图像输入识别网络进行训练;当所述训练的步长达到目标训练步长,将所述识别网络作为文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态。可选地,所述方法还包括:当所述训练的步长达到目标训练步长时,通过所述识别网络输出的识别结果具有模糊属性。可选地,所述获取预设数量的训练样本图像的步骤,包括:获取预设数量的无文本图像;对所述无文本图像添加所述文本信息,以获得所述训练样本图像。可选地,所述文本信息包含如下一种或组合:语种、文本格式、颜色格式、大小、文本内容;所述对所述无文本图像添加所述文本信息,以获得所述训练样本图像,包括:将所述文本信息以任意排版角度添加至所述无文本图像的任意位置,生成所述训练样本图像。第二方面,本专利技术提供一种文本定位方法,所述方法包括:获取待处理图像;将所述待处理图像输入文本识别模型中,输出目标图像;所述目标图像中存在具有模糊属性的区域;所述文本识别模型是识别网络的训练的步长达到目标训练步长时得到的文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态;根据所述目标图像定位所述待处理图像中的文本区域。可选地,所述根据所述目标图像定位所述待处理图像中的文本区域,包括:根据目标区域获取待处理图像的差异区域;所述差异区域表征所述待处理图像中的文本区域和所述目标图像中的具有模糊属性的区域之间的差异;基于所述差异区域定位所述待处理图像中的文本区域。可选地,在根据所述目标图像定位所述待处理图像中的文本区域之后,所述方法还包括:获取所述待处理图像的二值图;根据所述文本区域对所述二值图进行膨胀处理。第三方面,本专利技术提供一种文本识别模型的训练装置,包括:获取模块,用于获取预设数量的训练样本图像;每张所述样本图像具有文本信息;训练模块,用于将所述训练样本图像输入识别网络进行训练;确定模块,用于当所述训练的步长达到目标训练步长,将所述识别网络作为文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态。第四方面,本专利技术提供一种文本定位装置,包括:获取模块,用于获取待处理图像;识别模块,用于将所述待处理图像输入文本识别模型中,输出目标图像;所述目标图像中存在具有模糊属性的区域;所述文本识别模型是识别网络的训练的步长达到目标训练步长时得到的文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态;定位模块,用于根据所述目标图像定位所述待处理图像中的文本区域。第五方面,本专利技术提供一种电子设备,所述电子设备包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述处理器在执行所述机器可执行指令时,该电子设备实现第二方面所述的文本定位方法或者实现第一方面所述的文本识别模型训练方法。第六方面,本专利技术提供一种存储介质,所述存储介质中存储有机器可执行指令,所述机器可执行指令被执行时实现第二方面所述的文本定位方法或者实现第一方面所述的文本识别模型训练方法。本专利技术提供的一种文本识别模型训练方法、文本定位方法及相关装置,该文本识别模型训练方法包括:获取预设数量的训练样本图像;每张所述样本图像具有文本信息;将所述训练样本图像输入识别网络进行训练;当所述训练的步长达到目标训练步长时,则将所述识别网络作为文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态。本专利技术将带有任意文本信息的训练样本输入到识别网络中训练到目标训练步长后,得到文本识别模型,通过控制训练步长,在模型的损失函数快速下降之前停止训练过程,此时获得的文本识别模型学习到的是字体笔画类型的纹理结构,能够识别出没有经过训练的字体格式,提高了模型的泛化能力,能够准确识别字体,进而提高了字体定位效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例提供的一种文本识别模型的训练方法;图2为本专利技术实施例提供的一种训练样本图像示例图;图3为一种Unet模型结构示意图;图4为本专利技术实施例提供的一种步骤S101的实现方式的示意性流程图;图5为本专利技术实施例提供的一种步骤S102-1的实现方式的示意性流程图;图6为本专利技术实施例提供的一种获得训练样本图像的示意图;图7为本专利技术实施例提供的一种文本定位方法的示意性流程图;图8为本专利技术实施例提供的一种场景示意图;图9为本专利技术实施例提供的一种步骤S703的实现方式的示意性流程图;图10为本专利技术实施例提供的另一种文本定位方法的示意性流程图;图11为本专利技术实施例提供的一种包含文本区域的二值图;图12为本专利技术实施例提供的一种文本识别模型训练装置的功能模块图;图13为本专利技术实施例提供的一种文本定位装置的功能模块图;图14为本专利技术实施例提电子设备结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本文档来自技高网...
【技术保护点】
1.一种文本识别模型训练方法,其特征在于,所述方法包括:/n获取预设数量的训练样本图像;每张所述样本图像具有文本信息;/n将所述训练样本图像输入识别网络进行训练;/n当所述训练的步长达到目标训练步长,将所述识别网络作为文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态。/n
【技术特征摘要】
1.一种文本识别模型训练方法,其特征在于,所述方法包括:
获取预设数量的训练样本图像;每张所述样本图像具有文本信息;
将所述训练样本图像输入识别网络进行训练;
当所述训练的步长达到目标训练步长,将所述识别网络作为文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态。
2.根据权利要求1所述的文本识别模型训练方法,其特征在于,还包括:
当所述训练的步长达到目标训练步长时,通过所述识别网络输出的识别结果具有模糊属性。
3.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述获取预设数量的训练样本图像,包括:
获取预设数量的无文本图像;
对所述无文本图像添加所述文本信息,以获得所述训练样本图像。
4.根据权利要求3所述的文本识别模型训练方法,其特征在于,所述文本信息包含如下一种或组合:语种、文本格式、颜色格式、大小、文本内容;所述对所述无文本图像添加所述文本信息,以获得所述训练样本图像,包括:
将所述文本信息以任意排版角度添加至所述无文本图像的任意位置,生成所述训练样本图像。
5.一种文本定位方法,其特征在于,所述方法包括:
获取待处理图像;
将所述待处理图像输入文本识别模型中,输出目标图像;所述目标图像中存在具有模糊属性的区域;所述文本识别模型是识别网络的训练的步长达到目标训练步长时得到的文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态;
根据所述目标图像定位所述待处理图像中的文本区域。
6.根据权利要求5所述的文本定位方法,其特征在于,所述根据所述目标图像定位所述待处理图像中的文本区域,包括:
根据目标区域获取待处理图像的差异区域;所述差异区域表征所述待处理图像中的文本区域和所述目...
【专利技术属性】
技术研发人员:华路延,
申请(专利权)人:广州虎牙科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。