The invention discloses an adaptive correction method, device, readable medium and electronic equipment. The method includes: identifying candidate correction phrases with the greatest similarity to the candidate correction phrases from the preset sample phrases; S2, determining whether the Jacquard coefficients of the proposed correction phrases and the candidate correction phrases are larger than the first preset value, and if so, executing S3, otherwise persistent. Line S4; S3, determine the candidate corrective phrase as the corrective phrase corresponding to the corrective phrase; S4, delete at least one character of the corrective phrase, and delete the corrective phrase of at least one character as the corrective phrase, and execute S1. Through the technical scheme of the present invention, the correcting words can be more accurately corrected.
【技术实现步骤摘要】
一种自适应纠偏方法、装置、可读介质及电子设备
本专利技术涉及计算机
,尤其涉及一种自适应纠偏方法、装置、可读介质及电子设备。
技术介绍
光学字符识别(OCR,OpticalCharacterRecognition)是对图像文件进行识别提取字符及版面信息的过程。图像文件的质量直接影响识别结果的准确性,因此,通常需要对识别结果中由若干字符构成的词组进行纠偏以得到更为准确的词组。目前,主要通过对大量样本词组进行训练以得到神经网络模型,通过训练的神经网络模型对待纠偏词组进行拟合纠偏以得到与其对应的纠偏词组。通过神经网络模型对待纠偏词进行拟合纠偏时,极易发生过拟合现象,导致拟合纠偏过程中过度重视待纠偏词中参考意义较小的字符(比如,错误字符或数字)而无法得到准确的纠偏词组,即无法准确的实现对待纠偏词进行纠偏。
技术实现思路
本专利技术提供一种纠偏方法方法、装置、可读介质及电子设备,可更为准确的实现对待纠偏词进行纠偏。第一方面,本专利技术提供了一种自适应纠偏方法,包括:S1、从预设的各个样本词组中确定出与待纠偏词组相似度最大的候选纠偏词组;S2、确定所述待纠偏词组与所述候选纠偏词组的杰卡德系数是否大于第一预设值,如果是则执行S3,如果否则执行S4;S3、将所述候选纠偏词组确定为所述待纠偏词组对应的纠偏词组;S4、删除所述待纠偏词组的至少一个字符,并将删除所述至少一个字符的所述待纠偏词组作为所述待纠偏词组,执行S1。优选地,还包括:S21a、当所述杰卡德系数大于所述第一预设值时,确定所述候选纠偏词组中是否包括第一指定字符,如果是则执行S21b,如果否则执行S3;S21b ...
【技术保护点】
1.一种自适应纠偏方法,其特征在于,包括:S1、从预设的各个样本词组中确定出与待纠偏词组相似度最大的候选纠偏词组;S2、确定所述待纠偏词组与所述候选纠偏词组的杰卡德系数是否大于第一预设值,如果是则执行S3,如果否则执行S4;S3、将所述候选纠偏词组确定为所述待纠偏词组对应的纠偏词组;S4、删除所述待纠偏词组的至少一个字符,并将删除所述至少一个字符的所述待纠偏词组作为所述待纠偏词组,执行S1。
【技术特征摘要】
1.一种自适应纠偏方法,其特征在于,包括:S1、从预设的各个样本词组中确定出与待纠偏词组相似度最大的候选纠偏词组;S2、确定所述待纠偏词组与所述候选纠偏词组的杰卡德系数是否大于第一预设值,如果是则执行S3,如果否则执行S4;S3、将所述候选纠偏词组确定为所述待纠偏词组对应的纠偏词组;S4、删除所述待纠偏词组的至少一个字符,并将删除所述至少一个字符的所述待纠偏词组作为所述待纠偏词组,执行S1。2.根据权利要求1所述的方法,其特征在于,还包括:S21a、当所述杰卡德系数大于所述第一预设值时,确定所述候选纠偏词组中是否包括第一指定字符,如果是则执行S21b,如果否则执行S3;S21b,确定所述候选纠偏词组中位于所述第一指定字符内的各个字符的第一字符总量,以及确定所述待纠偏词组的第二字符总量,检测所述第一字符总量与所述第二字符总量的比值是否大于第二预设值,如果是则执行S5,如果否则执行S3;S5、删除所述待纠偏词组中位于所述第一指定字符内的各个当前字符,并将删除各个所述当前字符的所述待纠偏词组作为所述待纠偏词组,执行S1。3.根据权利要求1所述的方法,其特征在于还包括:S22:当所述杰卡德系数大于所述第一预设值时,确定所述待纠偏词组的各个字符与所述候选纠偏词组的各个字符之间的相同字符,确定各个所述相同字符的第三字符总量以及各个所述相同字符中至少一个第二指定字符的第四字符总量,检测所述第四字符总量与所述第三字符总量的比值是否大于第三预设值,如果是则执行S6,如果否则执行S3;S6、删除所述待纠偏词组的各个所述第二指定字符,并将删除各个所述第二指定字符的所述待纠偏词组作为所述待纠偏词组,执行S1。4.根据权利要求3所述的方法,其特征在于,所述至少一个第二指定字符的字符类型包括字母、数字及括号。5.根据权利要求1至4中任一所述的方法,其特征在于,还包括:针对预设的每一个样本词组,根据预设的最大拆分长度对所述样本词组进行分词以得到至少三个样本分词,对各个所述样本分词进行去重复处理,并利用完成去重复处理的各个所述样本分词组成对应于所述样本词组的对照集合;确定各个所述对照集合的并集;针对每一个所述样本词组,将所述并集中存在于所述样本词组对应的所述对照集合内的各个所述样本分词标记为1,将所述并集中不存在于所述样本词组对应的所述对照集合内的各个所述样本分词标记为0,根据标记结果形成对应于所述样本词组的样本向量;则,所述S1,包括:根据所述最大拆分长度对待纠偏词组进行分词以得到至少三个目标分词;对各个所述目标分词进行去重复处理,并利用完成去重复处理的各个所述目标分词组成目标集合;将所述并集中存在于所述目标集合内的各个所述样本分词标记为1,将所述并集中不存在于所述目标集合内的各个所述样本分词标记为0,根据标记结果形成目标向量;根据所述目标向量以及各个所述样本词组分别对应的所述样本向量,计算所述待纠偏词组与各个所述样本词组的相似度;将各个所述相似度中的最大值对应的所...
【专利技术属性】
技术研发人员:凤博,郭潇宇,
申请(专利权)人:天津幸福生命科技有限公司,金色熊猫有限公司,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。