模型训练、文本识别方法、装置、设备和介质制造方法及图纸

技术编号:29673545 阅读:29 留言:0更新日期:2021-08-13 21:55
本公开涉及一种模型训练、文本识别方法、装置、设备和介质;其中,该方法包括:获取训练样本,训练样本包括文本图像;构建初始分类模型,并根据初始分类模型的输出结果确定出训练样本中每个字符对应的多维二值向量;其中,多维二值向量为包括至少两个概率值的二值向量,概率值用于指示训练样本中字符的类别概率;利用初始识别模型,根据训练样本中每个字符的多维二值向量,获得预测文本;基于预设损失函数,根据预测文本对初始分类模型和初始识别模型进行训练,获得训练后的文本识别模型。本公开实施例能够有效提高文本识别的准确性。

【技术实现步骤摘要】
模型训练、文本识别方法、装置、设备和介质
本公开涉及人工智能
,尤其涉及一种模型训练、文本识别方法、装置、设备和介质。
技术介绍
自然场景文字识别是从带文字的图片中识别出字符序列的过程(对于中文,一个字符便是一个汉字,对于英文,一个字符便是一个字母);识别过程中,除了图片背景复杂以及光照变化等因素外,识别输出空间的复杂性也是一大困难,由于文字由数量是由不固定的字母组成,因此,自然场景文字识别需要从图片中识别长度不固定的序列。目前文字识别的主要方法是通过整体分析策略实现,即先将待识别文本图像编码,再进行序列解码直接得出整个字符串;但在具体应用过程中,其会出现识别结果多识别或漏识别字符的问题,导致文本识别准确度较低。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种模型训练、文本识别方法、装置、设备和介质。第一方面,本公开提供了一种文本识别模型训练方法,包括:获取训练样本,所述训练样本包括文本图像;构建初始分类模型,并根据所述初始分类模型的输出结果确定出所述训练样本中每个字符对应的多维二值向量;其中,所述多维二值向量为包括至少两个概率值的二值向量,所述概率值用于指示所述训练样本中字符的类别概率;利用初始识别模型,根据所述训练样本中每个字符的多维二值向量,获得预测文本;基于预设损失函数,根据所述预测文本对所述初始分类模型和所述初始识别模型进行训练,获得训练后的文本识别模型。第二方面,本公开提供了一种文本识别方法,包括:获取待识别的文本图像;将所述待识别的文本图像输入文本识别模型中,并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息;其中,所述文本识别模型基于如第一方面所述的文本识别模型训练方法训练得到。第三方面,本公开提供了一种文本识别模型训练装置,包括:训练样本获取模块,用于获取训练样本,所述训练样本包括文本图像;向量确定模块,用于构建初始分类模型,并根据所述初始分类模型的输出结果确定出所述训练样本中每个字符对应的多维二值向量;其中,所述多维二值向量为包括至少两个概率值的二值向量,所述概率值用于指示所述训练样本中字符的类别概率;预测文本确定模块,用于利用初始识别模型,根据所述训练样本中每个字符的多维二值向量,获得预测文本;模型训练模块,用于基于预设损失函数,根据所述预测文本对所述初始分类模型和所述初始识别模型进行训练,获得训练后的文本识别模型。第四方面,本公开提供了一种文本识别装置,包括:图像获取模块,用于获取待识别的文本图像;信息确定模块,用于将所述待识别的文本图像输入文本识别模型中,并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息;其中,所述文本识别模型基于如第一方面所述的文本识别模型训练方法训练得到。第五方面,本公开还提供了一种电子设备,包括:处理器;以及存储程序的存储器,其特征在于,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器实现本实施例中的任一种所述的文本识别模型训练方法,或者实现本实施例中的任一种所述的文本识别方法。第六方面,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行时实现本实施例中的任一种所述的文本识别模型训练方法,或者实现本实施例中的任一种所述的文本识别方法。本公开实施例提供的技术方案与现有技术相比具有如下优点:能够根据确定出的图像中单字符的多维二值向量训练得出文本识别模型,从而使得文本识别模型针对输入的待识别图像会输出每个字符的识别结果,从而避免整体识别导致漏识或多识的问题,有效提高了文本识别准确性。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本公开实施例提供的一种文本识别模型训练方法的流程示意图;图2是本公开实施例提供的另一种文本识别模型训练方法的流程示意图;图3是本公开实施例提供的一种文本识别方法的流程示意图;图4是本公开实施例提供的一种文本识别模型训练装置的结构示意图;图5是本公开实施例提供的一种文本识别装置的结构示意图;图6是本公开实施例提供的一种电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。增量推理是为卷积神经网络中常用的一种加速方式,它主要是用于对变换很小的连续图像做推理,图像数量多,但每张图像之间的变换很小;增量推理就是每次只对变化的部分做前向计算,这样既可以极大减少计算量,也能降低前向推断时间。因此,本实施例中采用卷积循环神经网络(ConvolutionalRecurrentNeuralNetworks,CRNN)模型为基础,基于概率矩阵来表征文本字符,训练得到文本识别模型,从而解决CRNN模型文本识别过程中漏识或者多识的问题。其中,CRNN从下至上,由卷积神经网络、循环神经网络和翻译层三部分组成;卷积神经网络负责从带文字的图片中提取特征,循环神经网络负责用卷积神经网络提取的特征进行序列预测,翻译层将循环神经网络得到的序列翻译为字母序列,目标函数选择“联结时序分类”(CTC)本文档来自技高网...

【技术保护点】
1.一种文本识别模型训练方法,其特征在于,所述方法包括:/n获取训练样本,所述训练样本包括文本图像;/n构建初始分类模型,并根据所述初始分类模型的输出结果确定出所述训练样本中每个字符对应的多维二值向量;其中,所述多维二值向量为包括至少两个概率值的二值向量,所述概率值用于指示所述训练样本中字符的类别概率;/n利用初始识别模型,根据所述训练样本中每个字符的多维二值向量,获得预测文本;/n基于预设损失函数,根据所述预测文本对所述初始分类模型和所述初始识别模型进行训练,获得训练后的文本识别模型。/n

【技术特征摘要】
1.一种文本识别模型训练方法,其特征在于,所述方法包括:
获取训练样本,所述训练样本包括文本图像;
构建初始分类模型,并根据所述初始分类模型的输出结果确定出所述训练样本中每个字符对应的多维二值向量;其中,所述多维二值向量为包括至少两个概率值的二值向量,所述概率值用于指示所述训练样本中字符的类别概率;
利用初始识别模型,根据所述训练样本中每个字符的多维二值向量,获得预测文本;
基于预设损失函数,根据所述预测文本对所述初始分类模型和所述初始识别模型进行训练,获得训练后的文本识别模型。


2.根据权利要求1所述的方法,其特征在于,所述根据所述初始分类模型的输出结果确定出所述训练样本中每个字符对应的多维二值向量,包括:
针对训练样本中的每个目标字符对应的字符图像,获取包含目标字符的部分图像信息的第一图像,利用所述初始分类模型根据所述第一图像确定所述目标字符对应的类别概率;
重复执行利用滑动窗方式调整所述第一图像中的图像信息,并利用所述初始分类模型根据所述第一图像确定目标字符对应的类别概率的步骤,得到所述目标字符对应的至少两个类别概率;
根据预设概率阈值对所述目标字符对应的至少两个类别概率进行二值化处理,得到所述目标字符对应的多维二值向量。


3.根据权利要求2所述的方法,其特征在于,所述利用滑动窗方式调整所述第一图像中的图像信息,包括:
基于预设方向,采用滑动窗口遮掩所述目标字符对应的字符图像中的局部图像信息,得到所述第一图像。


4.根据权利要求2所述的方法,其特征在于,所述利用所述初始分类模型根据所述第一图像确定目标字符对应的类别概率,包括:
将所述第一图像分别输入所述初始分类模型的至少两个串联的卷积层中,并将所述至少两个串联的卷积层的输出结果进行叠加,得到所述训练样本中目标字符的特征映射;
对所述训练样本中目标字符的特征映射进行卷积操作,得到所述训练样本中目标字符对应的类别概率。


5.根据权利要求1所述的方法,其特征在于,所述训练样本包括所述文本图像的转录内容,所述方法还包括:
响应所述转录内容的字符串长度小于预设的第一长度值,将预设的占位符号添加至所述转录内容的末尾位置,得到标准长度的转录内容。


...

【专利技术属性】
技术研发人员:王翔秦勇
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1