一种自适应纠偏方法、装置、可读介质及电子设备制造方法及图纸

技术编号:21300662 阅读:25 留言:0更新日期:2019-06-12 08:12
本发明专利技术公开了一种自适应纠偏方法、装置、可读介质及电子设备,该方法包括:从预设的各个样本词组中确定出与待纠偏词组相似度最大的候选纠偏词组;S2、确定所述待纠偏词组与所述候选纠偏词组的杰卡德系数是否大于第一预设值,如果是则执行S3,如果否则执行S4;S3、将所述候选纠偏词组确定为所述待纠偏词组对应的纠偏词组;S4、删除所述待纠偏词组的至少一个字符,并将删除所述至少一个字符的所述待纠偏词组作为所述待纠偏词组,执行S1。通过本发明专利技术的技术方案,可更为准确的实现对待纠偏词进行纠偏。

An Adaptive Deviation Correction Method, Device, Readable Media and Electronic Equipment

The invention discloses an adaptive correction method, device, readable medium and electronic equipment. The method includes: identifying candidate correction phrases with the greatest similarity to the candidate correction phrases from the preset sample phrases; S2, determining whether the Jacquard coefficients of the proposed correction phrases and the candidate correction phrases are larger than the first preset value, and if so, executing S3, otherwise persistent. Line S4; S3, determine the candidate corrective phrase as the corrective phrase corresponding to the corrective phrase; S4, delete at least one character of the corrective phrase, and delete the corrective phrase of at least one character as the corrective phrase, and execute S1. Through the technical scheme of the present invention, the correcting words can be more accurately corrected.

【技术实现步骤摘要】
一种自适应纠偏方法、装置、可读介质及电子设备
本专利技术涉及计算机
,尤其涉及一种自适应纠偏方法、装置、可读介质及电子设备。
技术介绍
光学字符识别(OCR,OpticalCharacterRecognition)是对图像文件进行识别提取字符及版面信息的过程。图像文件的质量直接影响识别结果的准确性,因此,通常需要对识别结果中由若干字符构成的词组进行纠偏以得到更为准确的词组。目前,主要通过对大量样本词组进行训练以得到神经网络模型,通过训练的神经网络模型对待纠偏词组进行拟合纠偏以得到与其对应的纠偏词组。通过神经网络模型对待纠偏词进行拟合纠偏时,极易发生过拟合现象,导致拟合纠偏过程中过度重视待纠偏词中参考意义较小的字符(比如,错误字符或数字)而无法得到准确的纠偏词组,即无法准确的实现对待纠偏词进行纠偏。
技术实现思路
本专利技术提供一种纠偏方法方法、装置、可读介质及电子设备,可更为准确的实现对待纠偏词进行纠偏。第一方面,本专利技术提供了一种自适应纠偏方法,包括:S1、从预设的各个样本词组中确定出与待纠偏词组相似度最大的候选纠偏词组;S2、确定所述待纠偏词组与所述候选纠偏词组的杰卡德系数是否大于第一预设值,如果是则执行S3,如果否则执行S4;S3、将所述候选纠偏词组确定为所述待纠偏词组对应的纠偏词组;S4、删除所述待纠偏词组的至少一个字符,并将删除所述至少一个字符的所述待纠偏词组作为所述待纠偏词组,执行S1。优选地,还包括:S21a、当所述杰卡德系数大于所述第一预设值时,确定所述候选纠偏词组中是否包括第一指定字符,如果是则执行S21b,如果否则执行S3;S21b,确定所述候选纠偏词中位于所述第一指定字符内的各个字符的第一字符总量,以及确定所述待纠偏词组的第二字符总量,检测所述第一字符总量与所述第二字符总量的比值是否大于第二预设值,如果是则执行S5,如果否则执行S3;S5、删除所述待纠偏词组中位于所述第一指定字符内的各个当前字符,并将删除各个所述当前字符的所述待纠偏词组作为所述待纠偏词组,执行S1。优选地,还包括:S22:当所述杰卡德系数大于所述第一预设值时,确定所述待纠偏词组的各个字符与所述候选纠偏词组的各个字符之间的相同字符,确定各个所述相同字符的第三字符总量以及各个所述相同字符中至少一个第二指定字符的第四字符总量,检测所述第四字符总量与所述第三字符总量的比值是否大于第三预设值,如果是则执行S6,如果否则执行S3;S6、删除所述待纠偏词组的各个所述第二指定字符,并将删除各个所述第二指定字符的所述待纠偏词组作为所述待纠偏词组,执行S1。优选地,所述至少一个第二指定字符的字符类型包括字母、数字及括号。优选地,还包括:针对预设的每一个样本词组,根据预设的最大拆分长度对所述样本词组进行分词以得到至少三个样本分词,对各个所述样本分词进行去重复处理,并利用完成去重复处理的各个所述样本分词组成对应于所述样本词组的对照集合;确定各个所述对照集合的并集;针对每一个所述样本词组,将所述并集中存在于所述样本词组对应的所述对照集合内的各个所述样本分词标记为1,将所述并集中不存在于所述样本词组对应的所述对照集合内的各个所述样本分词标记为0,根据标记结果形成对应于所述样本词组的样本向量;则,所述S1,包括:根据所述最大拆分长度对待纠偏词组进行分词以得到至少三个目标分词;对各个所述目标分词进行去重复处理,并利用完成去重复处理的各个所述目标分词组成目标集合;将所述并集中存在于所述目标集合内的各个所述样本分词标记为1,将所述并集中不存在于所述目标集合内的各个所述样本分词标记为0,根据标记结果形成目标向量;根据所述目标向量以及各个所述样本词组分别对应的所述样本向量,计算所述待纠偏词组与各个所述样本词组的相似度;将各个所述相似度中的最大值对应的所述样本词组确定为候选纠偏词组。优选地,所述根据所述目标向量以及各个所述样本词组分别对应的所述样本向量,计算所述待纠偏词组与各个所述样本词组的相似度,包括:通过如下公式计算所述待纠偏词组与各个所述样本词组的相似度,其中,sim(Q、qi)表征所述待纠偏词组与第i个所述样本词组的相似度、Q表征所述目标向量、qi表征第i个所述样本词组对应的所述样本向量。第二方面,本专利技术提供了一种自适应纠偏装置,包括:预处理模块,用于从预设的各个样本词组中确定出与待纠偏词组相似度最大的候选纠偏词组;第一确定模块,用于确定所述待纠偏词组与所述候选纠偏词组的杰卡德系数是否大于第一预设值,如果是则触发第二确定模块,如果否则触发删除处理模块;所述第二确定模块,用于在所述检测模块的触发下将所述候选纠偏词组确定为所述待纠偏词组对应的纠偏词组;所述删除处理模块,用于在所述第一确定模块的的触发下删除所述待纠偏词组的至少一个字符,并将删除所述至少一个字符的所述待纠偏词组作为所述待纠偏词组,然后触发所述预处理模块。优选地,还包括:第一处理模块及第二处理模块;其中,所述第一处理模块,用于当所述杰卡德系数大于所述第一预设值时,确定所述候选纠偏词组中是否包括第一指定字符,如果是则触发所述第二处理模块,如果否则触发所述第二确定模块;所述第二处理模块,用于在所述第一处理模块的触发下确定所述候选纠偏词组中位于所述第一指定字符内的各个字符的第一字符总量,以及确定所述待纠偏词组的第二字符总量,检测所述第一字符总量与所述第二字符总量的比值是否大于第二预设值,如果是,则触发所述删除处理模块;否则触发所述第二确定模块;则,所述删除处理模块,进一步用于在所述第二处理模块的触发下删除所述待纠偏词组中位于所述第一指定字符内的各个当前字符,并将删除各个所述当前字符的所述待纠偏词组作为所述待纠偏词组,然后触发所述预处理模块。优选地,还包括:第三处理模块;其中,所述第三处理模块,用于当所述杰卡德系数大于所述第一预设值时,确定所述待纠偏词组的各个字符与所述候选纠偏词组的各个字符之间的相同字符,确定各个所述相同字符的第三字符总量以及各个所述相同字符中至少一个第二指定字符的第四字符总量,检测所述第四字符总量与所述第三字符总量的比值是否大于第三预设值,如果是则触发所述删除处理模块,如果否则触发所述第二确定模块;则,所述删除处理模块,进一步用于在所述第三处理模块的触发下删除所述待纠偏词组的各个所述第二指定字符,并将删除各个所述第二指定字符的所述待纠偏词组作为所述待纠偏词组,然后触发所述预处理模块。第三方面,本专利技术提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面中任一所述的方法。第四方面,本专利技术提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。本专利技术提供了一种自适应纠偏方法、装置、可读介质及电子设备,该方法通过用户结合实际业务场景设置若干样本词组,当需要对某一个待纠偏词组进行纠偏时,则可从预设的各个样本词组中确定出在词组层面上与待纠偏词组相似度最大的候选纠偏词组;待纠偏词组与候选纠偏词组的杰卡德系数能够从更小的字符层面上、反映组成相应待纠偏词组的各个字符与组成候选纠偏词组的各个字符之间的相似度,当杰卡德系数过小时(即不大于第一预设值)时,说明本文档来自技高网...

【技术保护点】
1.一种自适应纠偏方法,其特征在于,包括:S1、从预设的各个样本词组中确定出与待纠偏词组相似度最大的候选纠偏词组;S2、确定所述待纠偏词组与所述候选纠偏词组的杰卡德系数是否大于第一预设值,如果是则执行S3,如果否则执行S4;S3、将所述候选纠偏词组确定为所述待纠偏词组对应的纠偏词组;S4、删除所述待纠偏词组的至少一个字符,并将删除所述至少一个字符的所述待纠偏词组作为所述待纠偏词组,执行S1。

【技术特征摘要】
1.一种自适应纠偏方法,其特征在于,包括:S1、从预设的各个样本词组中确定出与待纠偏词组相似度最大的候选纠偏词组;S2、确定所述待纠偏词组与所述候选纠偏词组的杰卡德系数是否大于第一预设值,如果是则执行S3,如果否则执行S4;S3、将所述候选纠偏词组确定为所述待纠偏词组对应的纠偏词组;S4、删除所述待纠偏词组的至少一个字符,并将删除所述至少一个字符的所述待纠偏词组作为所述待纠偏词组,执行S1。2.根据权利要求1所述的方法,其特征在于,还包括:S21a、当所述杰卡德系数大于所述第一预设值时,确定所述候选纠偏词组中是否包括第一指定字符,如果是则执行S21b,如果否则执行S3;S21b,确定所述候选纠偏词组中位于所述第一指定字符内的各个字符的第一字符总量,以及确定所述待纠偏词组的第二字符总量,检测所述第一字符总量与所述第二字符总量的比值是否大于第二预设值,如果是则执行S5,如果否则执行S3;S5、删除所述待纠偏词组中位于所述第一指定字符内的各个当前字符,并将删除各个所述当前字符的所述待纠偏词组作为所述待纠偏词组,执行S1。3.根据权利要求1所述的方法,其特征在于还包括:S22:当所述杰卡德系数大于所述第一预设值时,确定所述待纠偏词组的各个字符与所述候选纠偏词组的各个字符之间的相同字符,确定各个所述相同字符的第三字符总量以及各个所述相同字符中至少一个第二指定字符的第四字符总量,检测所述第四字符总量与所述第三字符总量的比值是否大于第三预设值,如果是则执行S6,如果否则执行S3;S6、删除所述待纠偏词组的各个所述第二指定字符,并将删除各个所述第二指定字符的所述待纠偏词组作为所述待纠偏词组,执行S1。4.根据权利要求3所述的方法,其特征在于,所述至少一个第二指定字符的字符类型包括字母、数字及括号。5.根据权利要求1至4中任一所述的方法,其特征在于,还包括:针对预设的每一个样本词组,根据预设的最大拆分长度对所述样本词组进行分词以得到至少三个样本分词,对各个所述样本分词进行去重复处理,并利用完成去重复处理的各个所述样本分词组成对应于所述样本词组的对照集合;确定各个所述对照集合的并集;针对每一个所述样本词组,将所述并集中存在于所述样本词组对应的所述对照集合内的各个所述样本分词标记为1,将所述并集中不存在于所述样本词组对应的所述对照集合内的各个所述样本分词标记为0,根据标记结果形成对应于所述样本词组的样本向量;则,所述S1,包括:根据所述最大拆分长度对待纠偏词组进行分词以得到至少三个目标分词;对各个所述目标分词进行去重复处理,并利用完成去重复处理的各个所述目标分词组成目标集合;将所述并集中存在于所述目标集合内的各个所述样本分词标记为1,将所述并集中不存在于所述目标集合内的各个所述样本分词标记为0,根据标记结果形成目标向量;根据所述目标向量以及各个所述样本词组分别对应的所述样本向量,计算所述待纠偏词组与各个所述样本词组的相似度;将各个所述相似度中的最大值对应的所...

【专利技术属性】
技术研发人员:凤博郭潇宇
申请(专利权)人:天津幸福生命科技有限公司金色熊猫有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1