字符级文本检测模型的训练方法及装置、介质、终端制造方法及图纸

技术编号：37163775 阅读：17 留言：0更新日期：2023-04-20 22:36

一种字符级文本检测模型的训练方法及装置、介质、终端，方法包括：在第k次迭代过程中，采用第k

全部详细技术资料下载

【技术实现步骤摘要】
字符级文本检测模型的训练方法及装置、介质、终端

[0001]本专利技术实施例涉及视觉文本检测领域，尤其涉及一种字符级文本检测模型的训练方法及装置、介质、终端。

技术介绍

[0002]随着深度学习的快速发展以及计算机能力的大幅度提升，很多任务在深度学习模型的帮助下实现了智能化的转型。但是深度学习需要海量已标注样本来进行模型的训练才能达到符合期望的泛化能力。
[0003]在视觉文本检测领域，真实场景中文本信息丰富，字体、文字大小、弯曲程度以及字体斜率等都是不确定性的。为对真实场景中的文本信息进行准确预测，在训练模型之前需要对海量训练数据进行人工的标注以帮助模型学习到丰富的文本知识。然而训练数据量一般可达到几万条，甚至上百万条，导致在训练数据的标注过程中，标注数据量大，标注耗时较长以及成本较高。

技术实现思路

[0004]本专利技术实施例解决的技术问题是标注数据量大，标注耗时较长且成本较高。
[0005]为解决上述技术问题，本专利技术实施例提供一种字符级文本检测模型的训练方法，包括：在第k次迭代过程中，采用第k
‑
1次迭代得到的文本检测模型对业务候选数据集中的各个样本的增强样本集合进行推断，得到各个样本的增强样本集合对应的预测框集合，增强样本集合包括原始样本以及原始样本的增强样本，所述预测框集合包括原始样本以及原始样本的增强样本分别对应的预测框，其中，k为大于1的整数；针对各个样本，根据各个样本的增强样本集合的预测框集合，计算各个样本的预测结果一致性指数，所述预测结果一致性...

【技术保护点】

【技术特征摘要】
1.一种字符级文本检测模型的训练方法，其特征在于，包括：在第k次迭代过程中，采用第k
‑
1次迭代得到的文本检测模型对业务候选数据集中的各个样本的增强样本集合进行推断，得到各个样本的增强样本集合对应的预测框集合，增强样本集合包括原始样本以及原始样本的增强样本，所述预测框集合包括原始样本以及原始样本的增强样本分别对应的预测框，其中，k为大于1的整数；针对各个样本，根据各个样本的增强样本集合的预测框集合，计算各个样本的预测结果一致性指数，所述预测结果一致性指数用于表征预测结果的一致性程度；根据各个样本的预测结果一致性指数，从所述业务候选数据集中选取目标样本；对所述目标样本进行人工单词级标注，并将人工单词级标注后的目标样本加入选中样本集，其中，所述选中样本集包括多个单词级标注的目标样本；采用所述第k
‑
1次迭代得到的文本检测模型对各个单词级标注的目标样本进行推断，得到各个目标样本的字符级伪标签，基于各个单词级标注的目标样本的字符级伪标签以及各个目标样本对所述第k
‑
1次迭代得到的文本检测模型进行训练，得到第k次迭代的文本检测模型；采用测试集对第k次迭代得到的文本检测模型进行评估，若评估通过，则得到所述字符级文本检测模型。2.如权利要求1所述的字符级文本检测模型的训练方法，其特征在于，还包括：若评估未通过，则基于所述第k次迭代的文本检测模型继续进行迭代训练，直至评估通过，得到所述字符级文本检测模型。3.如权利要求1所述的字符级文本检测模型的训练方法，其特征在于，所述针对各个样本，根据各个样本的增强数据集的预测框集合，计算各个样本的预测结果一致性指数，包括：针对各个样本，对于各个样本中的目标对象，计算目标对象的预测框的并集与目标对象的预测框的交集的比值，根据所述比值得到所述目标对象的预测结果一致性指数；针对各个样本，根据各个样本中的目标对象的预测结果一致性指数得到各个样本的预测结果一致性指数。4.如权利要求3所述的字符级文本检测模型的训练方法，其特征在于，所述针对各个样本，根据各个样本中的目标对象的预测结果一致性指数得到各个样本的预测结果一致性指数，包括：当样本包括多个目标对象时，确定各个目标对象的权重；根据各个目标对象的权重以及各个目标对象的预测结果一致性指数，对多个目标对象的预测结果一致性指数进行加权，并将加权结果作为样本的预测结果一致性指数。5.如权利要求4所述的字符级文本检测模型的训练方法，其特征在于，所述确定各个目标对象的权重，包括：根据各个目标对象在所述原始样本的预测框的尺寸确定权重，其中，权重与目标对象在所述原始样本的预测框的尺寸正相关。6.如权利要求1所述的字符级文本检测模型的训练方法，其特征在于，所述采用所述第k
‑
1次迭代得到的文本检测模型对各个单词级标注的目标样本进行推断，得到各个目标样本的字符级伪标签，基于各个单词级标注的目标样本的字符级伪标签以及各个目标样本对
所述第k
‑
1次迭代得到的文本检测模型进行训练，得到第k次迭代的文本检测模型，包括：对所述选中样本集中的各目标样本按照单词级标注进行单词级切片，得到一个或多个切片；采用所述第k
‑
1次迭代得到的文本检测模型对各个目标样本的切片进行推断，得到字符级区域概率热图；根据各个目标样本的切片的字符级区域概率热图，采用图像分割算法对各个切片进行切割，预测得到各个字符的字符预测框；在各个字符的字符预测框上映射生产二维高斯热图；针对各个目标样本，根据二维高斯热图以及各个目标样本，得到各个目标样本的字符级伪标签；根据各个目标样本的字符级伪标签以及各个目标样本，对所述第k
‑
1次迭代得到的文本检测模型进行训练，得到第k次迭代的文本检测模型。7.如权利要求6所述的字符级文本检测模型的训练方法，其特征在于，所述根据各个目标样本的字符级伪标签以及各个目标样本，对所述第k
‑
1次迭代得到的文本检测模型进行训练，包括：针对各个切片，根据各个切片的各个字符的字符预测框，预估各个切片中单词的单词预测长度；针对各个切片，根据各个切片的单词预测长度以及单词真实程度，计算各个切片的预测结果真实性指数；针对各个目标样本，根据各个目标样本中的所有切片的预测结果真实性指数，确定各个目标样本的学习权重；结...

【专利技术属性】
技术研发人员：聂诗武，沈晓静，张子也，何思清，
申请(专利权)人：上海复旦微电子集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人