【技术实现步骤摘要】
一种文本识别模型训练方法、系统、电子设备及存储介质
[0001]本专利技术公开了一种文本识别模型训练方法、系统、电子设备及存储介质,涉及文本识别
技术介绍
[0002]现有技术进行自动化处理扫描的证件、文档,往往会采用OCR技术来识别其中的文字,然后再做业务处理。具体的,在一个自动化报销场景中,RPA机器人可以调用OCR识别对UI图像进行文本识别,用于提取报销的金额,开票单位等等。若是采用业内通用的OCR识别模型对UI图像进行文本识别,其准确率往往很难达到RPA工作流程中的要求。若是专门训练一个针对UI图像进行文本识别的专用OCR模型,则目前并没有公开的标注后的UI图像数据集。若是采用人工的方法对收集到的UI图像进行人工标注,再使用标注后的UI图像数据集对待训练文本识别模型进行训练以得到满足于一定识别率的商用文本识别模型,则需要人工标注的数量量巨大,成本高昂,因为要得到上述的满足于一定识别率的商用文本识别模型通常需要数十万张图片的训练数据才能获得较好的结果。由于真实图片的搜集和标注成本巨大,OCR识别模型需要数十万 ...
【技术保护点】
【技术特征摘要】
1.一种文本识别模型训练方法,其特征在于,包括如下步骤:步骤a、基于预先配置好的筛选规则,从UI图像数据集中筛选出对应于该筛选规则的多个目标图像;步骤b、对目标图像进行人工标注,获得标注结果,从标注结果中提取该筛选规则对应的测试集;步骤c、使用标注结果作为训练集,对文本识别模型进行训练;步骤d、使用测试集对训练后的文本识别模型进行测试,若测试的准确率未达到阈值,则继续使用该筛选规则重新筛选目标图像,重复步骤b至步骤d,至测试的准确率达到阈值,得到训练后的文本识别模型为目标文本识别模型。2.根据权利要求1所述的一种文本识别模型训练方法,其特征在于,所述筛选规则包括若干个筛选规则,基于该若干个筛选规则执行文本识别模型的重复训练;在下一个筛选规则执行前,以上一个筛选规则训练后的文本识别模型进行训练,及训练后测试至准确率达到阈值;当最后筛选规则下测试的准确率达到阈值,得到最后训练后的文本识别模型为目标文本识别模型。3.根据权利要求2所述的一种文本识别模型训练方法,其特征在于,每个筛选规则对应的测试集固定。4.根据权利要求2所述的一种文本识别模型训练方法,其特征在于,所述方法包括:基于筛选规则的执行序列从UI图像数据集中筛选出对应于该筛选规则的多个目标图像,所述执行序列通过如下方法确定:针对所述的若干个筛选规则设定对应于应用场景的重要性分数;根据重要性分数的大小,设置执行序列,其中,重要性分数高的筛选规则先于重要性分数低的筛选规则执行。5.根据权利要求2所述的一种文本识别模型训练方法,其特征在于,所述若干个筛选规则包括以下任意一种或多种:UI图像中仅...
【专利技术属性】
技术研发人员:林平,唐琦松,吴鑫,谢涛,
申请(专利权)人:上海艺赛旗软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。