【技术实现步骤摘要】
文本识别模型训练方法、文本定位方法及相关装置
本专利技术涉及数据处理
,具体而言,涉及一种文本识别模型训练方法、文本定位方法及相关装置。
技术介绍
网络上电影、短视频越来越丰富,观看视频已经成为人们娱乐、获取知识的主要窗口之一。为了方便用户理解视频内容,视频画面上还可以显示字幕信息。在观看或者使用一些视频时,部分用户出于不同的原因并不需要在视频中看到字幕,部分用户可能需要提取字幕信息另做他用。因此,针对这部分群体就有遮挡或者去除字幕的需要。在现有技术中,要想提取或者遮挡视频中的字幕,首先需要先定位到字幕在图像中的位置。目前的文本识别模型泛化能力低,仅仅能够识别现存的几千种文本格式,对于那些没有遍历到的字体型反而无法准确识别,降低了文本定位效率。
技术实现思路
有鉴于此,本专利技术提供一种文本识别模型训练方法、文本定位方法及相关装置,用以识别各种形式的文本,提供文本识别的准确度,进而降低文本定位效率。本专利技术技术方案如下:第一方面,本专利技术提供一种文本识别模型训练方法,所述方法包括:获取预设数量的 ...
【技术保护点】
1.一种文本识别模型训练方法,其特征在于,所述方法包括:/n获取预设数量的训练样本图像;每张所述样本图像具有文本信息;/n将所述训练样本图像输入识别网络进行训练;/n当所述训练的步长达到目标训练步长,将所述识别网络作为文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态。/n
【技术特征摘要】
1.一种文本识别模型训练方法,其特征在于,所述方法包括:
获取预设数量的训练样本图像;每张所述样本图像具有文本信息;
将所述训练样本图像输入识别网络进行训练;
当所述训练的步长达到目标训练步长,将所述识别网络作为文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态。
2.根据权利要求1所述的文本识别模型训练方法,其特征在于,还包括:
当所述训练的步长达到目标训练步长时,通过所述识别网络输出的识别结果具有模糊属性。
3.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述获取预设数量的训练样本图像,包括:
获取预设数量的无文本图像;
对所述无文本图像添加所述文本信息,以获得所述训练样本图像。
4.根据权利要求3所述的文本识别模型训练方法,其特征在于,所述文本信息包含如下一种或组合:语种、文本格式、颜色格式、大小、文本内容;所述对所述无文本图像添加所述文本信息,以获得所述训练样本图像,包括:
将所述文本信息以任意排版角度添加至所述无文本图像的任意位置,生成所述训练样本图像。
5.一种文本定位方法,其特征在于,所述方法包括:
获取待处理图像;
将所述待处理图像输入文本识别模型中,输出目标图像;所述目标图像中存在具有模糊属性的区域;所述文本识别模型是识别网络的训练的步长达到目标训练步长时得到的文本识别模型;所述目标训练步长用于指示所述识别网络即将处于收敛状态;
根据所述目标图像定位所述待处理图像中的文本区域。
6.根据权利要求5所述的文本定位方法,其特征在于,所述根据所述目标图像定位所述待处理图像中的文本区域,包括:
根据目标区域获取待处理图像的差异区域;所述差异区域表征所述待处理图像中的文本区域和所述目...
【专利技术属性】
技术研发人员:华路延,
申请(专利权)人:广州虎牙科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。