光学字符识别方法和产生光学字符识别的训练样本的方法技术

技术编号:23787724 阅读:38 留言:0更新日期:2020-04-15 00:50
本公开提供了一种光学字符识别方法和系统以及一种产生光学字符识别的训练样本的方法和系统。本公开涉及的光学字符识别方法和系统,能够大幅度提高光学字符识别的准确率和识别效率。本公开的产生光学字符识别的训练样本的方法及系统通过使生成训练样本所使用的文本行的类别分布与训练文本的的类别分布相符合,以及在训练样本的生成中加入随机特征变换,使得生成的训练样本更接近实际应用场景中的真实数据,从而大幅度提高所训练出来的光学字符识别模型的识别准确率。

Method of optical character recognition and method of generating training samples for optical character recognition

【技术实现步骤摘要】
光学字符识别方法和产生光学字符识别的训练样本的方法
本公开主要涉及光学字符识别领域,尤其涉及一种光学字符识别方法和系统以及一种产生光学字符识别的训练样本的方法和系统。
技术介绍
光学字符识别是指针对字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式的技术。如何提高光学字符识别的识别正确率,是本领域最关注的课题。使用神经网络来进行光学字符识别可以大幅度提高识别正确率,并且可以减少人工设计字符特征等步骤。但现有技术中,神经网络所使用的训练数据一般思路是通过业务系统收集或通过人工标注。对训练文本和训练样本的模拟生成的关注较少。
技术实现思路
本公开要解决的一个技术问题是提供一种光学字符识别方法,可用于更准确地进行光学字符识别。本公开要解决的另一技术问题是提供一种产生光学字符识别的训练样本的方法,可生成更接近真实数据的光学字符识别的训练样本。为解决上述技术问题,本公开提供了一种光学字符识别方法,包括以下步骤:获取字符图像;使用特征提取模型提取所述字符图像的多个特征,所述特征提取模型是使用预先生成的训练图像样本训练得到的多层残差网络模型;将所述多个特征组成特征序列,利用识别概率模型确定对所述特征序列进行水平方向的拟合,从而输出多个位置所分别对应的预定义字符的概率值;所述识别概率模型是使用所述训练图像样本训练得到的长短期记忆模型;以及根据所述识别概率模型确定的所述概率值,利用连续时序分类器确定所述特征序列对应的字符序列。可选地,所述方法包括按照如下方法生成所述训练图像样本:获取多个训练文本,每一训练文本具有类别属性;统计所述多个训练文本的类别分布;从所述多个训练文本中选取多个文本行,使所述多个文本行的类别分布符合所述多个训练文本的类别分布;将所述多个文本行转换为文本图像;以及对所述文本图像进行随机特征变换,获得所述训练图像样本。可选地,所述随机特征变换包括以下之一或任意组合:随机挑选字体渲染文字、随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换。可选地,所述随机挑选字体渲染文字的步骤是根据所述类别分布进行。可选地,所述随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换的步骤是根据对应的预设范围进行。可选地,所述训练文本的类别包括:文献、医学病历、不良事件描述以及检验报告单。可选地,按照如下方法训练所述特征提取模型和识别概率模型:获取所述训练图像样本;使用特征提取模型提取所述训练图像样本的多个特征;将所述多个特征组成特征序列,利用识别概率模型对所述特征序列进行水平方向的拟合,从而输出多个位置所对应的预定义字符的概率值;根据所述识别概率模型确定的概率值,使用连续时序分类器计算损失值;以及使用所述连续时序分类器确定误差,且调整所述特征提取模型和所述识别概率模型。可选地,利用连续时序分类器确定所述特征图像序列对应的字符序列的步骤之后还包括:根据语言模型对所述字符序列进行修正,其中所述语言模型是根据与所述字符图像的领域有关的语料统计得到。本公开还提供了一种产生光学字符识别的训练样本的方法,包括如下步骤:获取多个训练文本,每一训练文本具有类别属性;统计所述多个训练文本的类别分布;从所述多个训练文本中选取多个文本行,使所述多个文本行的类别分布符合所述多个训练文本的类别分布;将所述多个文本行转换为文本图像;以及对所述文本图像进行随机特征变换,获得训练样本可选地,所述随机特征变换包括以下之一或任意组合:随机挑选字体渲染文字、随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换。可选地,所述随机挑选字体渲染文字的步骤是根据所述类别分布进行。可选地,随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换的步骤是根据对应的预设范围进行。可选地,所述训练文本的类别包括:文献、医学病历、不良事件描述以及检验报告单。本公开还提供了一种光学字符识别系统,包括:存储器,用于存储可由处理器执行的指令;处理器,配置为执行所述指令以实现上述的光学字符识别方法训练光学字符识别模型;以及使用经训练的光学字符识别模型识别目标文件。本公开还提供了一种产生光学字符识别的训练样本的系统,包括:存储器,用于存储可由处理器执行的指令;以及处理器,用于执行所述指令以实现上述的产生光学字符识别的训练样本的方法。与现有技术相比,本公开的光学字符识别方法及系统具有可以大幅度提高光学字符识别的准确率和识别效率的优点。与现有技术相比,本公开的产生光学字符识别的训练样本的方法及系统具有以下优点:通过使生成训练样本所使用的文本行的类别分布与训练文本的的类别分布相符合,使得训练样本更接近实际应用场景中的真实数据,从而大幅度提高所训练出来的光学字符识别模型的识别准确率;通过在训练样本的生成中加入随机特征变换,使得生成的训练样本更接近实际应用场景中的真实图像,从而大幅度地提高所训练出来的光学字符识别模型的识别准确率。附图说明通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本公开一实施例示出的光学字符识别方法和产生光学字符识别的训练样本的方法及其系统的系统框图。图2是根据本公开一实施例示出的产生光学字符识别的训练样本的方法的流程图。图3是根据本公开一实施例示出的光学字符识别方法的流程图。图4是根据本公开一实施例示出的训练特征提取模型和识别概率模型的方法的流程图。图5是根据本公开一实施例示出的光学字符识别系统的系统框图。图6是根据本公开一实施例示出的产生光学字符识别的训练样本系统的系统框图。图7是根据本公开一实施例示出的产生光学字符识别的训练样本的方法得到的文本图像。图8是根据本公开一实施例示出的产生光学字符识别的训练样本的方法得到的训练样本。具体实施方式为了更清楚地说明本公开的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本公开的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本公开应用于其他类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。如本公开和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。本公开文件中使用的术语“和/或”,包括一个或多个相关的所列项目的任意的和所有的组合。本公开中使用了本文档来自技高网...

【技术保护点】
1.一种光学字符识别方法,包括以下步骤:/n获取字符图像;/n使用特征提取模型提取所述字符图像的多个特征,所述特征提取模型是使用预先生成的训练图像样本训练得到的多层残差网络模型;/n将所述多个特征组成特征序列,利用识别概率模型确定对所述特征序列进行水平方向的拟合,从而输出多个位置所分别对应的预定义字符的概率值;所述识别概率模型是使用所述训练图像样本训练得到的长短期记忆模型;以及/n根据所述识别概率模型确定的所述概率值,利用连续时序分类器确定所述特征序列对应的字符序列。/n

【技术特征摘要】
1.一种光学字符识别方法,包括以下步骤:
获取字符图像;
使用特征提取模型提取所述字符图像的多个特征,所述特征提取模型是使用预先生成的训练图像样本训练得到的多层残差网络模型;
将所述多个特征组成特征序列,利用识别概率模型确定对所述特征序列进行水平方向的拟合,从而输出多个位置所分别对应的预定义字符的概率值;所述识别概率模型是使用所述训练图像样本训练得到的长短期记忆模型;以及
根据所述识别概率模型确定的所述概率值,利用连续时序分类器确定所述特征序列对应的字符序列。


2.如权利要求1所述的光学字符识别方法,其特征在于,包括按照如下方法生成所述训练图像样本:
获取多个训练文本,每一训练文本具有类别属性;
统计所述多个训练文本的类别分布;
从所述多个训练文本中选取多个文本行,使所述多个文本行的类别分布符合所述多个训练文本的类别分布;
将所述多个文本行转换为文本图像;以及
对所述文本图像进行随机特征变换,获得所述训练图像样本。


3.如权利要求2所述的光学字符识别方法,其特征在于,所述随机特征变换包括以下之一或任意组合:随机挑选字体渲染文字、随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换。


4.如权利要求3所述的光学字符识别方法,其特征在于,所述随机挑选字体渲染文字的步骤是根据所述类别分布进行。


5.如权利要求3所述的光学字符识别方法,其特征在于,所述随机调整线条粗细、随机调整文本图像亮度、随机仿射变换以及随机投影变换的步骤是根据对应的预设范围进行。


6.如权利要求2所述的光学字符识别方法,其特征在于,所述训练文本的类别包括:文献、医学病历、不良事件描述以及检验报告单。


7.如权利要求1所述的光学字符识别方法,其特征在于,按照如下方法训练所述特征提取模型和识别概率模型:
获取所述训练图像样本;
使用所述特征提取模型提取所述训练图像样本的多个特征;
将所述多个特征组成特征序列,利用所述识别概率模型对所述特征序列进行水平方向的拟合,从而输...

【专利技术属性】
技术研发人员:吴大帅余超
申请(专利权)人:嘉兴太美医疗科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1