模型训练方法、文本行确定方法及装置制造方法及图纸

技术编号:34860914 阅读:14 留言:0更新日期:2022-09-08 08:04
本申请实施例提供了一种模型训练方法、装置、电子设备及存储介质。所述方法包括:获取第一样本图像和第二样本图像,所述第一样本图像和所述第二样本图像均为包含文本行的样本图像,所述第一样本图像为模拟的含有多种文本字体的图像;基于所述第一样本图像对待训练字体识别模型进行训练,得到预训练字体识别模型;基于所述第一样本图像和所述第二样本图像对所述预训练字体识别模型进行训练,得到目标字体识别模型。本申请实施例可以提高字体识别模型的识别效果,准确区分图像内的台词文本行和非台词文本行。非台词文本行。非台词文本行。

【技术实现步骤摘要】
模型训练方法、文本行确定方法及装置


[0001]本申请涉及强化学习
,特别是涉及一种模型训练方法、文本行确定方法及装置。

技术介绍

[0002]随着经济水平的不断提升,娱乐视频的种类也越来越多,人们可以通过电子设备(如电脑、手机等)观看娱乐视频,以丰富业余生活。针对娱乐视频的提供平台而言,在对该平台内的娱乐视频生成相应的台词的过程中,可以根据不同文本行之间使用的字体差异,有效区分出台词文本行与非台词文本行,在对所有文本行进行过滤时起到重要的作用。
[0003]目前,通常是采用文字识别网络识别视频图像内的台词文本行与非台词文本行,在文本行字体识别模型训练中,如果采用的训练样本都是来源于真实场景中的文本行,则每个文本行几乎都含有相同的字体。在进行字符字体属性识别的训练过程中,可通过训练获得每个位置的字符所对应的字体属性,但是由于文本行中所有字符的字体相同,无法有效的通过模型训练获得字符之间的分隔符,会导致模型将预测的字体属性序列中的分隔符误识别为字体,从而导致模型损失函数降低,导致训练的模型的识别效果较差,无法准确区分图像内的台词文本行和非台词文本行。

技术实现思路

[0004]本申请实施例的目的在于提供一种模型训练方法、文本行确定方法、装置、电子设备及存储介质,以结合仿真样本数据与真实样本数据进行两阶段的模型训练,以提高训练的字体识别模型的识别效果,准确区分出图像内的台词文本行和非台词文本行。具体技术方案如下:
[0005]在本申请实施的第一方面,首先提供了一种模型训练方法,包括:
[0006]获取第一样本图像和第二样本图像,所述第一样本图像和所述第二样本图像均为包含文本行的样本图像,所述第一样本图像为模拟的含有多种文本字体的图像;
[0007]基于所述第一样本图像对待训练字体识别模型进行训练,得到预训练字体识别模型;
[0008]基于所述第一样本图像和所述第二样本图像对所述预训练字体识别模型进行训练,得到目标字体识别模型。
[0009]可选地,所述获取第一样本图像和第二样本图像,包括:
[0010]从预设图像库中获取包含有文本行的第二样本图像;
[0011]从所述预设图像库中获取不包含文本行的初始图像;
[0012]在所述初始图像内添加文本行,生成第一样本图像;在所述第一样本图像中每个文本行内包含多种文本字体。
[0013]可选地,在所述第一样本图像中每个文字均标注有第一字体标签,在同一文本行内相邻两种字体之间标注有分隔符;
[0014]所述基于所述第一样本图像对待训练字体识别模型进行训练,得到预训练字体识别模型,包括:
[0015]将所述第一样本图像输入至所述待训练字体识别模型;
[0016]基于所述待训练字体识别模型对所述第一样本图像进行处理,得到所述第一样本图像的包含有分隔符的预测字体标签;
[0017]根据所述第一字体标签和所述预测字体标签,计算得到所述待训练字体识别模型的第一损失值;
[0018]在所述第一损失值处于第一预设范围内的情况下,将训练后的待训练字体识别模型确定为所述预训练字体识别模型。
[0019]可选地,所述根据所述第一字体标签和所述预测字体标签,计算得到所述待训练字体识别模型的第一损失值,包括:
[0020]根据所述预测字体标签,确定所述第一样本图像内每个文本行对应的多条字体路径;
[0021]根据所述第一字体标签和所述预测字体标签,确定每个文字所属字体的字体概率;
[0022]根据每个文字所属字体的字体概率,计算得到所述多条字体路径对应的字体路径概率;
[0023]根据所述字体路径概率中的最大字体路径概率,计算得到所述待训练字体识别模型的第一损失值。
[0024]可选地,在所述根据所述第一字体标签和所述预测字体标签,计算得到所述待训练字体识别模型的第一损失值之后,还包括:
[0025]在所述第一损失值处于第一预设范围之外的情况下,根据所述第一样本图像对训练后的待训练字体识别模型进行训练,直至计算得到的第一损失值处于所述第一预设范围内。
[0026]可选地,在所述第一样本图像中每个文字均标注有第二字体标签,在所述第二样本图像中每个文字均标注有第三字体标签,且在同一文本行内相邻两种字体之间标注有分隔符;
[0027]所述基于所述第一样本图像和所述第二样本图像对所述预训练字体识别模型进行训练,得到目标字体识别模型,包括:
[0028]将所述第一样本图像和所述第二样本图像输入至所述预训练字体识别模型;
[0029]基于所述预训练字体识别模型对所述第一样本图像和所述第二样本图像进行处理,得到所述第一样本图像的第一预测字体标签,及所述第二样本图像的包含有分隔符的第二预测字体标签;
[0030]根据所述第二字体标签与所述第一预测字体标签、及所述第三字体标签和所述第二预测字体标签,计算得到所述预训练字体识别模型的第二损失值;
[0031]在所述第二损失值处于第二预设范围内的情况下,将训练后的预训练字体识别模型确定为所述目标字体识别模型。
[0032]可选地,所述根据所述第二字体标签与所述第一预测字体标签、及所述第三字体标签和所述第二预测字体标签,计算得到所述预训练字体识别模型的第二损失值,包括:
[0033]根据所述第一预测字体标签,确定所述第一样本图像内每个文本行对应的多条第一字体路径,并根据所述第二预测字体标签,确定所述第二样本图像内每个文本行对应的第二字体路径;
[0034]根据所述第二字体标签和所述第一预测字体标签,确定所述第一样本图像内每个文字所属字体的第一字体概率,并根据所述第三字体标签和所述第二预测字体标签,确定所述第二样本图像内每个文字所属字体的第二字体概率;
[0035]根据所述第一字体概率,计算得到所述第一字体路径对应的第一字体路径概率,并根据所述第二字体路径概率,计算得到所述第二字体路径对应的第二字体路径概率;
[0036]根据所述第一字体路径概率中最大的第一字体路径概率,及所述第二字体路径概率中最大的第二字体路径概率,计算得到所述第二损失值。
[0037]可选地,在所述根据所述第二字体标签与所述第一预测字体标签、及所述第三字体标签和所述第二预测字体标签,计算得到所述预训练字体识别模型的第二损失值之后,还包括:
[0038]在所述第二损失值处于第二预设范围之外的情况下,根据所述第一样本图像和所述第二样本图像对所述训练后的与训练字体识别模型进行训练,直至计算得到的第二损失值处于所述第二预设范围内。
[0039]在本申请实施的第二方面,提供了一种文本行确定方法,包括:
[0040]获取待识别图像,所述待识别图像为包含文本行的图像;
[0041]将所述待识别图像输入至目标字体识别模型;
[0042]基于所述目标字体识别模型对所述待识别图像进行识别处理,得到所述待识别图像中的文本行对应的文本属性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取第一样本图像和第二样本图像,所述第一样本图像和所述第二样本图像均为包含文本行的样本图像,所述第一样本图像为模拟的含有多种文本字体的图像;基于所述第一样本图像对待训练字体识别模型进行训练,得到预训练字体识别模型;基于所述第一样本图像和所述第二样本图像对所述预训练字体识别模型进行训练,得到目标字体识别模型。2.根据权利要求1所述的方法,其特征在于,所述获取第一样本图像和第二样本图像,包括:从预设图像库中获取包含有文本行的第二样本图像;从所述预设图像库中获取不包含文本行的初始图像;在所述初始图像内添加文本行,生成第一样本图像;在所述第一样本图像中每个文本行内包含多种文本字体。3.根据权利要求1所述的方法,其特征在于,在所述第一样本图像中每个文字均标注有第一字体标签,在同一文本行内相邻两种字体之间标注有分隔符;所述基于所述第一样本图像对待训练字体识别模型进行训练,得到预训练字体识别模型,包括:将所述第一样本图像输入至所述待训练字体识别模型;基于所述待训练字体识别模型对所述第一样本图像进行处理,得到所述第一样本图像的包含有分隔符的预测字体标签;根据所述第一字体标签和所述预测字体标签,计算得到所述待训练字体识别模型的第一损失值;在所述第一损失值处于第一预设范围内的情况下,将训练后的待训练字体识别模型确定为所述预训练字体识别模型。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一字体标签和所述预测字体标签,计算得到所述待训练字体识别模型的第一损失值,包括:根据所述预测字体标签,确定所述第一样本图像内每个文本行对应的多条字体路径;根据所述第一字体标签和所述预测字体标签,确定每个文字所属字体的字体概率;根据每个文字所属字体的字体概率,计算得到所述多条字体路径对应的字体路径概率;根据所述字体路径概率中的最大字体路径概率,计算得到所述待训练字体识别模型的第一损失值。5.根据权利要求3所述的方法,其特征在于,在所述根据所述第一字体标签和所述预测字体标签,计算得到所述待训练字体识别模型的第一损失值之后,还包括:在所述第一损失值处于第一预设范围之外的情况下,根据所述第一样本图像对训练后的待训练字体识别模型进行训练,直至计算得到的第一损失值处于所述第一预设范围内。6.根据权利要求1所述的方法,其特征在于,在所述第一样本图像中每个文字均标注有第二字体标签,在所述第二样本图像中每个文字均标注有第三字体标签,且在同一文本行内相邻两种字体之间标注有分隔符;所述基于所述第一样本图像和所述第二样本图像对所述预训练字体识别模型进行训
练,得到目标字体识别模型,包括:将所述第一样本图像和所述第二样本图像输入至所述预训练字体识别模型;基于所述预训练字体识别模型对所述第一样本图像和所述第二样本图像进行处理,得到所述第一样本图像的第一预测字体标签,及所述第二样本图像的包含有分隔符的第二预测字体标签;根据所述第二字体标签与所述第一预测字体标签、及所述第三字体标签和所述第二预测字体标签,计算得到所述预训练字体识别模型的第二损失值;在所述第二损失值处于第二预设范围内的情况下,将训练后的预训练字体识别模型确定为所述目标字体识别模型。7.根据权利要求6所述的方法,其特征在于,所述根据所述第二字体标签与所述第一预测字体标签、及所述第三字体标签和所述第二预测字体标签,计算得到所述预训练字体识别模型的第二损失值,包括:根据所...

【专利技术属性】
技术研发人员:赵瑞书
申请(专利权)人:北京爱奇艺科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1