【技术实现步骤摘要】
一种针对药名光学字符识别文本的纠错方法及系统
[0001]本专利技术涉及一种文本纠错方法,尤其涉及一种针对药名光学字符识别文本的纠错方法,并进一步涉及采用了该针对药名光学字符识别文本的纠错方法的纠错系统。
技术介绍
[0002]随着信息化时代的深入发展,文字信息电子化成为一项基本需求,其中涉及到大量图片信息的提取工作,而通过光学字符识别将图片中的文本信息先提取出来再进行处理是常用的技术手段。在本文中,光学字符识别简称OCR,目前OCR技术已经达到了一定程度的实用性,但对于一些图片质量不好的单据或票据,识别出来的文本仍需进行校对纠错,特别是在一些需要精确录入的领域,比如在医保理赔业务中的单据药名识别,需要针对OCR识别结果进行纠错。
[0003]现有技术的方案中,部分文献利用检索和音形码相似度找到与OCR文本相似的候选集,再进行评分以查找最优结果;也有利用CRNN网络和Viterbi对OCR给出的候选字符进行组合概率计算并找到优化解,再结合编辑距离和最长公共子串查找匹配解;还有利用药名分词对药名性质进行细分,或者根据允许字符集与识别结果的比较,区分出缺失字符串和不可存在字符串后进行纠错等。但是,这些现有的技术方案在OCR识别情况较为复杂或是错误严重时,可靠性较差,无法给出正确结果,不能很好地实现纠错,进而影响了实际的应用。
技术实现思路
[0004]本专利技术所要解决的技术问题是需要提供一种针对药名光学字符识别文本的纠错方法,旨在能够在OCR识别情况较为复杂或是错误严重时,也可以给出正确的结果, ...
【技术保护点】
【技术特征摘要】
1.一种针对药名光学字符识别文本的纠错方法,其特征在于,包括以下步骤:步骤S1,根据收集的原始药名数据建立和生成正确的药名库;步骤S2,通过光学字符识别获取光学字符识别药名,将光学字符识别药名与收集药名进行对比和差异处理,生成初步映射的第一错误分词数据库;步骤S3,以分词为单位对错误分词进行过滤和扩展,生成最终的错误分词数据库;步骤S4,对光学字符识别错误的药名进行纠错和替换。2.根据权利要求1所述的针对药名光学字符识别文本的纠错方法,其特征在于,所述步骤S1包括以下子步骤:步骤S101,根据原始药名数据中药名的频次和出处信息进行初步筛选,选择频次大于预设频次阈值且具有不同出处信息的药名作为初筛药名;步骤S102,对初筛药名中长度相同的药名,获取差异字符数为1~2的药名对,再对药名对中的两个药名进行分词,如果得到的两组分词数一致,则对含有错别字的药名进行分词的整体替换;如果得到的两组分词数不一致,则选取两组分词之中包含药名关键词且分词数少的药名进行保留,选取两组分词之中不包含药名关键词且分词数多的药名进行过滤。3.根据权利要求1或2所述的针对药名光学字符识别文本的纠错方法,其特征在于,所述步骤S2包括以下子步骤:步骤S201,根据药名关键词对所述光学字符识别药名进行分词处理;步骤S202,选取所述光学字符识别药名中,分词数大于录入药名分词数的药名对;步骤S203,选取差异字符数为1~2的药名对;步骤S204,判断差异字符数是否为2,若是,则将差异字符数为2的药名对转化为差异字符数为1后跳转至步骤S205,若否,则直接跳转至步骤S205;步骤S205,根据对应的收集药名,将收集药名和光学字符识别药名进行对比,将所述收集药名和光学字符识别药名在相同位置的相同分词去掉,并将所述光学字符识别药名剩下的字符串联起来作为错误分词。4.根据权利要求3所述的针对药名光学字符识别文本的纠错方法,其特征在于,所述步骤S204中,将所述光学字符识别药名中一个错误字符替换为正确字符,然后判断分词数是否出现变化,若出现变化,则表示两个错误字符不在一个分词中,判定为差异字符数是否为2,分别替换两个错误字符后跳转至步骤S205;若没有出现变化,则表示两个错误字符在一个分词中,直接跳转至步骤S205。5.根据权利要求1或2所述的针对药名光学字符识别文本的纠错方法,其特征在于,所述步骤S3包括以下子步骤:步骤S301,取出错误分词中的错误字符,通过相似字形算法进行筛选;步骤S302,遍历药名库中的药名并进行分词,找出包含步骤S301中错误字符所对应的正确字符,将该正确字符替换为其对应的错误字符后生成新的错误分词,得到第二错误分词数据库;步骤S303,将所述第一错误分词数据库和第二错误分词数据库进行合并,得到第三错误分词数据库;步骤S304,再次遍历药名库中的药名并进行分词,当发现所述第三错误分词数据库中分词时,则将该分词从当前的错误分词数据库中去掉,生成最终的错误分词数据库。
6.根据权利要求5所述的针对药名光学字符识别文本的纠错方法,其特征在于,所述步骤S301包括以下子步骤:步骤S3011,通过汉字结构字典的查询判断错误字符和正确字符是否同为复合结构,若是,则跳转至步骤S3012;若否,则跳转至步骤S301...
【专利技术属性】
技术研发人员:罗登,万享,郑传双,张玉志,
申请(专利权)人:深圳市点通数据有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。