【技术实现步骤摘要】
数据处理方法、装置、电子设备和存储介质
[0001]本申请涉及计算机
,特别是涉及一种数据处理方法、一种数据处理装置、一种电子设备和一种存储介质。
技术介绍
[0002]光学字符识别(Optical Character Recognition,OCR)是指利用字符识别模型检查图像中的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
[0003]目前,字符识别模型通常采用少量人工标注的训练数据进行训练,导致字符识别模型的识别准确度低。
技术实现思路
[0004]本申请实施例提供了一种数据处理方法,以提升字符识别模型的识别准确度。
[0005]相应的,本申请实施例还提供了一种数据处理装置、一种电子设备和一种存储介质,用以保证上述系统的实现及应用。
[0006]为了解决上述问题,本申请实施例公开了一种数据处理方法,所述的方法包括:提供数据交互页面,以基于所述数据交互页面获取待识别的输入数据;依据所述输入数据和训练好的字符识别模型,确定识别结果,所述 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述的方法包括:提供数据交互页面,以基于所述数据交互页面获取待识别的输入数据;依据所述输入数据和训练好的字符识别模型,确定识别结果,所述字符识别模型依据多组标注好的训练数据进行训练得到,多组训练数据依据输入到识别模型的输入数据的可信度进行分组得到,各组训练数据的标注依据批量标注的方式进行标注得到;下发所述识别结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括确定训练数据的步骤:将无标注的输入数据输入到识别模型中,确定对应的识别结果;按照所述识别结果的可信度,对输入数据进行分组;为各分组的输入数据批量的配置标注数据,形成训练数据。3.根据权利要求2所述的方法,其特征在于,所述为各分组的输入数据批量的配置标注数据,形成训练数据,包括:对分组后的输入数据按照数据的特征进行聚类处理,并批量的确定各类别的输入数据的标注数据,形成训练数据。4.根据权利要求3所述的方法,其特征在于,所述识别结果包括第一识别结果和第二识别结果,所述第一识别结果包括单字识别结果及对应的识别置信度,所述第二识别结果包括输入数据对应的特征类以及对应的特征相似度;其中,所述按照所述识别结果的可信度,对输入数据进行分组,包括:将特征类与单字识别结果进行匹配,确定匹配结果;依据所述匹配结果、所述特征相似度和所述识别置信度,确定识别结果的可信度,并对所述输入数据进行分组。5.根据权利要求4所述的方法,其特征在于,所述依据所述匹配结果、所述特征相似度和所述识别置信度,确定识别结果的可信度,并对所述输入数据进行分组,包括:将所述特征相似度与相似度阈值进行比较,得到第一比较结果;将所述识别置信度与置信度阈值进行比较,得到第二比较结果;依据所述第一比较结果、所述第二比较结果和所述匹配结果,确定识别结果的可信度,并对所述输入数据进行分组。6.根据权利要求2所述的方法,其特征在于,所述将无标注的输入数据输入到识别模型中,确定对应的识别结果,包括:将无标注的输入数据输入到第一识别模型中,确定第一识别结果;将无标注的输入数据输入到第二识别模型中,确定第二识别结果。7.根据权利要求2所述的方法,其特征在于,还包括:获取待处理的图像数据,并对图像数据进行识别,得到多个包含有单个字的子图像,作为输入数据。8.根据权利要求7所述的方法,其特征在于,还包括:对子图像进行数据调整,得到扩充子图像,作为输入数据,所述数据调整包括图像旋转、图像平移、图像裁剪、仿射变换、增噪处理中的至少一种。9.根据权利要求3所述的方法,其特征在于,所述对分组后的输入数据按照数据的特征进行聚类处理,并批量的确定各类别的输入数据的标注数据,形成训练数据,包括以下步骤
中的至少一种:在所述输入数据所属的分组为第一分组时,获取各输入数据的单字识别结果,作为标注数据;在所述输入数据所属的分组为第二分组时,按照输入数据的单字识别结果对输入数据进行聚类处理,并获取各类别的标注信息,作为标注数据;在所述输入数据所属的分组为第三分组时,将输入数据作为识别模型下一次迭代的输入。10.根据权利要求9所述的方法,其特征在于,所述第一分组包括已有类别简单样本组,所述第二分组包括已有类别相似样本组、已有类别困难样本组、未有类别样本组;所述第三分组包括低质量样本组。11.根据权利要求10所述的方法,其特征在于,还包括:提供交互页面,以基于所述交互页面获取输入数据的标注信息。12.根据权利要求11所述的方法,其特征在于,所述方法还包括:接收对输入数据的调整信息,以将输入数据调整至目标类别。13.根据权利要求11所述的方法,其特征在于,还包括:输出输入数据和相应的标注数据,并获取对应的修正信息,以依据所述修正信息对已标注的数据进行调整。14.一种数据处理方法,其特征在于,所述...
【专利技术属性】
技术研发人员:黄耀雄,何梦超,王永攀,
申请(专利权)人:阿里巴巴新加坡控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。