文字识别矫正的方法技术

技术编号:27685564 阅读:23 留言:0更新日期:2021-03-17 03:52
本申请公开了一种文字识别矫正的方法,包括:构建专业词库;构建识别结果区域矩阵;矫正。本申请的文字识别矫正的方法,通过引入语言模型,统计条件概率预测最佳符合词库的识别结果,通过检测项对应关系,进行前后矫正,进一步提高识别精确度,最后通过融合编辑距离和最长公共子序列的识别方法匹配最佳的识别结果,提高了识别准确率,能够很好地满足实际应用的需要。

【技术实现步骤摘要】
文字识别矫正的方法
本申请涉及计算机视觉
,具体涉及一种文字识别矫正的方法。
技术介绍
近年来,随着深度学习和人工智能的不断发展与进步,计算机视觉领域成为热点研究方向,吸引了来自学术界与工业界的广泛关注。计算机视觉通过其对图像的强大的解读能力,为各行各业提供了技术支持。其中,医疗领域提出了智慧医疗的建设,并在近些年取得了突破性进展。化验检测对于就医患者必不可少,同时会产生大量的医疗化验单,极大的增加了医生的工作量。自2005年起,由Google不断维护的开源的Tesseract-OCR在文字识别领域取得优异的成绩,使整个学术界以及工业界掀起了一股人工智能的浪潮,各类文字识别算法应运而生。在医疗领域,OCR技术可以通过识别化验单文字,结合医疗信息系统,利用人工智能与大数据对化验单进行初步的解读,不仅能够使患者得到及时的就诊,同时也可以减轻工作人员的工作量,大大提升诊断效率。OCR全称OpticalCharacterRecognition,中文翻译为光学字符识别。对于自然场景下化验单文字识别后处理,目前存在的后处理方法都存在一定的缺陷。例如:编辑距离算法对于较短序列或识别结果出现缺失、增加等情况效果并不理想;最长公共子序列算法可以克服文字的缺失或增添,但在多个序列拥有相同公共子序列时,矫正会出现争议;语言模型只是在预测时有多个预测结果,通过构建识别矩阵,找到最优的组合路径;等等。这些缺陷导致自然场景下化验单识别效果欠佳。
技术实现思路
本申请的目的是提供一种文字识别矫正的方法。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。根据本申请实施例的一个方面,提供一种文字识别矫正的方法,包括:构建专业词库;构建识别结果区域矩阵;矫正。进一步地,所述矫正包括:基于语言模型进行矫正;基于编辑距离和最长公共子序列进行矫正;基于对应关系进行矫正。进一步地,基于语言模型进行矫正,包括:语言模型通过概率分布来统计字符出现的概率,通过统计结果,计算最大的条件概率;第一个检测区域识别的结果S1,选取CRNN网络给出的前三个候选字,每个候选区域的概率W(S1)根据网络预测的概率重新归一化,第二个候选区域识别结果S2,选取CRNN网络给出的前三个候选字,每个候选区域的概率W(S2)根据网络预测的概率重新归一化,第二个候选区域识别结果S2,选取CRNN网络给出的前三个候选字,每个候选区域的概率W(S3)根据网络预测的概率重新归一化;根据概率统计分析,条件概率P(S2|S1),即S1出现的情况下后面接S2的概率;f=W(S1)P(S2|S1)W(S2)P(S3|S2)W(S3)f的最大值即为最优得组合方式;对于预测序列S1,S2,S3...Sn,需要计算f的最大值,W(Si)根据CRNN预测概率进行重新归一化,条件概率P(Si+1|Si)根据词库,统计Si出现的次数N(Si),统计Si和Si+1前后共同出现的次数N(Si,Si+1),f=W(S1)P(S2|S1)W(S2)...W(Sn-1)P(Sn|Sn-1)W(Sn)条件概率公式为求解最优组合路径问题的最优解。进一步地,所述基于编辑距离和最长公共子序列进行矫正,包括:对编辑距离和最长公共子序列两种方法的计算结果进行加权求和。进一步地,所述基于对应关系进行矫正,包括:根据各项的对应关系,根据识别出的项矫正与该被识别出的项存在对应关系的项的识别结果。进一步地,所述构建识别结果区域矩阵,包括:根据识别结果的每个区域取前N,构建识别结果区域矩阵,其中,N为正整数。根据本申请实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述的文字识别矫正的方法。根据本申请实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的文字识别矫正的方法。本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:本申请实施例提供的文字识别矫正的方法,通过引入语言模型,统计条件概率预测最佳符合词库的识别结果,通过检测项对应关系,进行前后矫正,进一步提高识别精确度,最后通过融合编辑距离和最长公共子序列的识别方法匹配最佳的识别结果,提高了识别准确率,能够很好地满足实际应用的需要。本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请一个实施例的文字识别矫正的方法流程图;图2为本申请一个实施例中的识别结果区域矩阵示意图;图3为本申请一个实施例中的动态转移过程示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。针对自然场景下化验单文字识别,本申请实施例提出了一种文字识别矫正的方法,包括:首先利用语言模型得到更加符合实际情况的预测序列,然后根据构建的医疗词库进行完全匹配,若匹配成功可以根据化验单检测项的对应关系进行前后矫正,若匹配失败,可以根据改进的编辑距离和最长公共子序列的方法选择最接近的医疗词库中的词语矫正,然后再根据对应关系进一步矫正,从而提高识别准确率。融合语言模型的化验单(或者其他文字材料)文字识别矫正的方法,可以有效解决形近字识别错误和医学名词个别字识别错误的情况,其整体流程图如图1所示。主要分为两个部分对自然场景下化验单的识别进行矫正,第一步是预处理,构建医疗词库和识别矩阵。第二步是OC本文档来自技高网
...

【技术保护点】
1.一种文字识别矫正的方法,其特征在于,包括:/n构建专业词库;/n构建识别结果区域矩阵;/n矫正。/n

【技术特征摘要】
1.一种文字识别矫正的方法,其特征在于,包括:
构建专业词库;
构建识别结果区域矩阵;
矫正。


2.根据权利要求1所述的方法,其特征在于,所述矫正包括:
基于语言模型进行矫正;
基于编辑距离和最长公共子序列进行矫正;
基于对应关系进行矫正。


3.根据权利要求2所述的方法,其特征在于,基于语言模型进行矫正,包括:
语言模型通过概率分布来统计字符出现的概率,通过统计结果,计算最大的条件概率;第一个检测区域识别的结果S1,选取CRNN网络给出的前三个候选字,每个候选区域的概率W(S1)根据网络预测的概率重新归一化,第二个候选区域识别结果S2,选取CRNN网络给出的前三个候选字,每个候选区域的概率W(S2)根据网络预测的概率重新归一化,第二个候选区域识别结果S2,选取CRNN网络给出的前三个候选字,每个候选区域的概率W(S3)根据网络预测的概率重新归一化;
根据概率统计分析,条件概率P(S2|S1),即S1出现的情况下后面接S2的概率;
f=W(S1)P(S2|S1)W(S2)P(S3|S2)W(S3)
f的最大值即为最优得组合方式;
对于预测序列S1,S2,S3...Sn,需要计算f的最大值,W(Si)根据CRNN预测概率进行重新归一化,...

【专利技术属性】
技术研发人员:吕学强游新冬董志安
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1