一种针对药名光学字符识别文本的纠错方法及系统技术方案

技术编号:39037461 阅读:10 留言:0更新日期:2023-10-10 11:50
本发明专利技术提供一种针对药名光学字符识别文本的纠错方法及系统,包括:步骤S1,根据收集的原始药名数据建立和生成正确的药名库;步骤S2,通过光学字符识别获取光学字符识别药名,将光学字符识别药名与收集药名进行对比和差异处理,生成初步映射的第一错误分词数据库;步骤S3,以分词为单位对错误分词进行过滤和扩展,生成最终的错误分词数据库;步骤S4,对光学字符识别错误的药名进行纠错和替换。本发明专利技术操作简单、使用方便且运行耗时少,能够在OCR识别情况较为复杂或是错误严重时,也可以给出正确的结果,并有效地实现纠错。本发明专利技术不仅规避了匹配时实时计算耗时长的弊端,还针对光学字符识别药名提出了更加稳定、可靠且精准的技术方案。案。案。

【技术实现步骤摘要】
一种针对药名光学字符识别文本的纠错方法及系统


[0001]本专利技术涉及一种文本纠错方法,尤其涉及一种针对药名光学字符识别文本的纠错方法,并进一步涉及采用了该针对药名光学字符识别文本的纠错方法的纠错系统。

技术介绍

[0002]随着信息化时代的深入发展,文字信息电子化成为一项基本需求,其中涉及到大量图片信息的提取工作,而通过光学字符识别将图片中的文本信息先提取出来再进行处理是常用的技术手段。在本文中,光学字符识别简称OCR,目前OCR技术已经达到了一定程度的实用性,但对于一些图片质量不好的单据或票据,识别出来的文本仍需进行校对纠错,特别是在一些需要精确录入的领域,比如在医保理赔业务中的单据药名识别,需要针对OCR识别结果进行纠错。
[0003]现有技术的方案中,部分文献利用检索和音形码相似度找到与OCR文本相似的候选集,再进行评分以查找最优结果;也有利用CRNN网络和Viterbi对OCR给出的候选字符进行组合概率计算并找到优化解,再结合编辑距离和最长公共子串查找匹配解;还有利用药名分词对药名性质进行细分,或者根据允许字符集与识别结果的比较,区分出缺失字符串和不可存在字符串后进行纠错等。但是,这些现有的技术方案在OCR识别情况较为复杂或是错误严重时,可靠性较差,无法给出正确结果,不能很好地实现纠错,进而影响了实际的应用。

技术实现思路

[0004]本专利技术所要解决的技术问题是需要提供一种针对药名光学字符识别文本的纠错方法,旨在能够在OCR识别情况较为复杂或是错误严重时,也可以给出正确的结果,并有效地实现纠错,实际应用提供更加稳定、可靠且精准的技术方案,无需人工标注,快速且高效。在此基础上,还进一步提供采用了该针对药名光学字符识别文本的纠错方法的纠错系统。
[0005]对此,本专利技术提供一种针对药名光学字符识别文本的纠错方法,包括以下步骤:
[0006]步骤S1,根据收集的原始药名数据建立和生成正确的药名库;
[0007]步骤S2,通过光学字符识别获取光学字符识别药名,将光学字符识别药名与收集药名进行对比和差异处理,生成初步映射的第一错误分词数据库;
[0008]步骤S3,以分词为单位对错误分词进行过滤和扩展,生成最终的错误分词数据库;
[0009]步骤S4,对光学字符识别错误的药名进行纠错和替换。
[0010]本专利技术的进一步改进在于,所述步骤S1包括以下子步骤:
[0011]步骤S101,根据原始药名数据中药名的频次和出处信息进行初步筛选,选择频次大于预设频次阈值且具有不同出处信息的药名作为初筛药名;
[0012]步骤S102,对初筛药名中长度相同的药名,获取差异字符数为1~2的药名对,再对药名对中的两个药名进行分词,如果得到的两组分词数一致,则对含有错别字的药名进行分词的整体替换;如果得到的两组分词数不一致,则选取两组分词之中包含药名关键词且
分词数少的药名进行保留,选取两组分词之中不包含药名关键词且分词数多的药名进行过滤。
[0013]本专利技术的进一步改进在于,所述步骤S2包括以下子步骤:
[0014]步骤S201,根据药名关键词对所述光学字符识别药名进行分词处理;
[0015]步骤S202,选取所述光学字符识别药名中,分词数大于录入药名分词数的药名对;
[0016]步骤S203,选取差异字符数为1~2的药名对;
[0017]步骤S204,判断差异字符数是否为2,若是,则将差异字符数为2的药名对转化为差异字符数为1后跳转至步骤S205,若否,则直接跳转至步骤S205;
[0018]步骤S205,根据对应的收集药名,将收集药名和光学字符识别药名进行对比,将所述收集药名和光学字符识别药名在相同位置的相同分词去掉,并将所述光学字符识别药名剩下的字符串联起来作为错误分词。
[0019]本专利技术的进一步改进在于,所述步骤S204中,将所述光学字符识别药名中一个错误字符替换为正确字符,然后判断分词数是否出现变化,若出现变化,则表示两个错误字符不在一个分词中,判定为差异字符数是否为2,分别替换两个错误字符后跳转至步骤S205;若没有出现变化,则表示两个错误字符在一个分词中,直接跳转至步骤S205。
[0020]本专利技术的进一步改进在于,所述步骤S3包括以下子步骤:
[0021]步骤S301,取出错误分词中的错误字符,通过相似字形算法进行筛选;
[0022]步骤S302,遍历药名库中的药名并进行分词,找出包含步骤S301中错误字符所对应的正确字符,将该正确字符替换为其对应的错误字符后生成新的错误分词,得到第二错误分词数据库;
[0023]步骤S303,将所述第一错误分词数据库和第二错误分词数据库进行合并,得到第三错误分词数据库;
[0024]步骤S304,再次遍历药名库中的药名并进行分词,当发现所述第三错误分词数据库中分词时,则将该分词从当前的错误分词数据库中去掉,生成最终的错误分词数据库。
[0025]本专利技术的进一步改进在于,所述步骤S301包括以下子步骤:
[0026]步骤S3011,通过汉字结构字典的查询判断错误字符和正确字符是否同为复合结构,若是,则跳转至步骤S3012;若否,则跳转至步骤S3013;
[0027]步骤S3012,通过四角编码对错误字符和正确字符进行相似度计算,若相似度大于相似度阈值的下限,则对错误字符予以保留;否则,对错误字符进行排除;
[0028]步骤S3013,判断错误字符和正确字符是否存在相同的偏旁部首,若存在,则对错误字符予以保留;若否,则跳转至步骤S3014;
[0029]步骤S3014,通过四角编码对错误字符和正确字符进行相似度计算,若相似度大于相似度阈值的上限,则对错误字符予以保留;否则,对错误字符进行排除。
[0030]本专利技术的进一步改进在于,所述步骤S304中,再次利用所述药名库中的正确药名,将步骤S303中的第三错误分词数据库添加到分词器中对药名进行分词,如果发现存在于第三错误分词数据库中的分词,则在错误分词数据库中排除该分词,以此得到最终的错误分词数据库。
[0031]本专利技术的进一步改进在于,所述步骤S4包括以下子步骤:
[0032]步骤S401,在分词器中添加所述错误分词数据库中的错误分词,在获取新的光学
字符识别药名之后,根据错误分词对所述新的光学字符识别药名进行分词处理;
[0033]步骤S402,在所述错误分词数据库中查找所述新的光学字符识别药名的错误分词;
[0034]步骤S403,通过错误分词和正确分词之间的映射,将错误分词进行对应替换;
[0035]步骤S404,在药名库中查找进行对应替换后的光学字符识别药名,若未找到则返回步骤S402进行预设次数的查找,若找到则将替换后的光学字符识别药名定义为替换药名,并跳转至步骤S405;
[0036]步骤S405,查找药名,获取替换药名在药名库中与之差异字符数小于n且字符长度相同的药本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对药名光学字符识别文本的纠错方法,其特征在于,包括以下步骤:步骤S1,根据收集的原始药名数据建立和生成正确的药名库;步骤S2,通过光学字符识别获取光学字符识别药名,将光学字符识别药名与收集药名进行对比和差异处理,生成初步映射的第一错误分词数据库;步骤S3,以分词为单位对错误分词进行过滤和扩展,生成最终的错误分词数据库;步骤S4,对光学字符识别错误的药名进行纠错和替换。2.根据权利要求1所述的针对药名光学字符识别文本的纠错方法,其特征在于,所述步骤S1包括以下子步骤:步骤S101,根据原始药名数据中药名的频次和出处信息进行初步筛选,选择频次大于预设频次阈值且具有不同出处信息的药名作为初筛药名;步骤S102,对初筛药名中长度相同的药名,获取差异字符数为1~2的药名对,再对药名对中的两个药名进行分词,如果得到的两组分词数一致,则对含有错别字的药名进行分词的整体替换;如果得到的两组分词数不一致,则选取两组分词之中包含药名关键词且分词数少的药名进行保留,选取两组分词之中不包含药名关键词且分词数多的药名进行过滤。3.根据权利要求1或2所述的针对药名光学字符识别文本的纠错方法,其特征在于,所述步骤S2包括以下子步骤:步骤S201,根据药名关键词对所述光学字符识别药名进行分词处理;步骤S202,选取所述光学字符识别药名中,分词数大于录入药名分词数的药名对;步骤S203,选取差异字符数为1~2的药名对;步骤S204,判断差异字符数是否为2,若是,则将差异字符数为2的药名对转化为差异字符数为1后跳转至步骤S205,若否,则直接跳转至步骤S205;步骤S205,根据对应的收集药名,将收集药名和光学字符识别药名进行对比,将所述收集药名和光学字符识别药名在相同位置的相同分词去掉,并将所述光学字符识别药名剩下的字符串联起来作为错误分词。4.根据权利要求3所述的针对药名光学字符识别文本的纠错方法,其特征在于,所述步骤S204中,将所述光学字符识别药名中一个错误字符替换为正确字符,然后判断分词数是否出现变化,若出现变化,则表示两个错误字符不在一个分词中,判定为差异字符数是否为2,分别替换两个错误字符后跳转至步骤S205;若没有出现变化,则表示两个错误字符在一个分词中,直接跳转至步骤S205。5.根据权利要求1或2所述的针对药名光学字符识别文本的纠错方法,其特征在于,所述步骤S3包括以下子步骤:步骤S301,取出错误分词中的错误字符,通过相似字形算法进行筛选;步骤S302,遍历药名库中的药名并进行分词,找出包含步骤S301中错误字符所对应的正确字符,将该正确字符替换为其对应的错误字符后生成新的错误分词,得到第二错误分词数据库;步骤S303,将所述第一错误分词数据库和第二错误分词数据库进行合并,得到第三错误分词数据库;步骤S304,再次遍历药名库中的药名并进行分词,当发现所述第三错误分词数据库中分词时,则将该分词从当前的错误分词数据库中去掉,生成最终的错误分词数据库。
6.根据权利要求5所述的针对药名光学字符识别文本的纠错方法,其特征在于,所述步骤S301包括以下子步骤:步骤S3011,通过汉字结构字典的查询判断错误字符和正确字符是否同为复合结构,若是,则跳转至步骤S3012;若否,则跳转至步骤S301...

【专利技术属性】
技术研发人员:罗登万享郑传双张玉志
申请(专利权)人:深圳市点通数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1