一种文字识别训练系统及方法技术方案

技术编号:21116539 阅读:31 留言:0更新日期:2019-05-16 09:13
本发明专利技术涉及一种文字识别训练系统及方法,属于文字识别技术;现有技术中,在训练神经网络过程中仅仅使用序列损失函数,但是中文文字繁多,其有众多字形相似,该损失函数效果不好,本发明专利技术提供了一种文字识别系统及方法,其损失函数采用序列损失函数与分类损失函数,有效的解决了中文文字识别过程中的分类错误。

【技术实现步骤摘要】
一种文字识别训练系统及方法
本专利技术涉及一种文字识别技术,特别是涉及中文文字识别训练方法。
技术介绍
现今基于深度学习的文字识别训练结构大都如图1所示,首先由卷积神经网络等特征提取模型提取图片特征,之后使用循环神经网络或者自然语言处理等方法生成文字序列结果,采用序列模型的损失函数进行对齐和计算损失。训练过程中,通过序列损失函数间接调整特征提取模型,使之能提取出最具表达能力的特征。这在英文的文字识别模型中得到了很好的结果。但是中文的文字识别比英文文字识别在任务的复杂度上有明显的区别,首先是巨大的字符数量差异,英文只需识别26个字母,但是中文仅常用字库就有三四千的数目;并且,很多中文文字形状相似但意义大不相同,这也给准确识别带来了难度,例如对于像“莱”、“菜”这种形似的字符,容易产生混淆。观察发现,多数文字识别错误的原因是检错文字类别。特别是在自动驾驶、辅助驾驶领域,文字的正确识别是实现自动或辅助驾驶的重要环节。亟待需要一种用于自动驾驶、辅助驾驶的文字识别方法和系统。
技术实现思路
现有技术中对于文字的识别较少采用神经网络进行训练,更没有对已有神经网络进行优化。鉴于现有技术中存在的问题,本专利技术提供一种文字识别训练系统,其特征在于特征提取单元、文字识别单元和损失函数单元;所述特征提取单元对待识别文字的图片或图像进行特征提取;所述文字识别单元将输入的所述特征进行文字识别得到识别结果;所述系统还包括:通过待识别文字的图片或图像的预先标注,与所述识别结果进行对比,并构建损失函数,并存储于损失函数单元,由所述损失函数单元中的所述损失函数逐级反向传导,逐级修正所述文字识别单元和所述特征提取单元;所述损失函数由两种不同类型的损失函数之和构成。优选地,所述两种不同类型的损失函数分别为序列损失函数和分类损失函数。优选地,所述分类损失函数表达字形相同的文字出现识别错误的概率。优选地,所述系统的损失函数=a*序列损失函数+b*分类损失函数,其中a、b为权重系数。优选地,所述文字识别单元包括第一文字识别单元和第二文字识别单元,其分别对应列损失函数和分类损失函数。优选地,所述系统还包括映射单元,其通过词典或字典的映射来预测所述识别结果。优选地,所述系统还包括预处理单元,其用于对样本集进行标注以及对所有中文文字进行分类。本专利技术还提供了一种利用上述系统进行文字识别的训练方法,其特征在于:所述方法包括以下步骤:特征提取步骤:对待识别文字的图片或图像进行特征提取;文字识别步骤:输入的所述特征进行文字识别得到识别结果;修正步骤:所述系统通过待识别文字的图片或图像的预先标注,与所述识别结果进行对比,并构建所述损失函数,最后由所述损失函数逐级反向传导,逐级修正所述文字识别单元和所述特征提取单元;所述损失函数由两种不同类型的损失函数之和构成。优选地,所述特征提取单元为卷积神经网络,所述文字识别单元为循环神经网络。优选地,所述两种不同类型的损失函数分别为序列损失函数和分类损失函数。本专利技术的专利技术点包括但不限于以下几点:(1)本专利技术提出了以分类损失函数来修正神经网络;很多中文文字形状相似但意义大不相同,这也给准确识别带来了难度,观察发现,多数文字识别错误的原因是检错文字类别,分类损失函数有效的解决了中文文字形状相似但意义大不相同的这类字的识别。(2)本专利技术提出了损失函数由序列损失函数和分类损失函数之和来表达;通过设置不同情况下,两者之间的权重,可解决文字识别中顺序错误的问题和检错文字的问题;采用序列损失函数和分类损失函数之和来表达损失函数,并且用于文字识别上,在现有技术中未曾出现。(3)本专利技术还可同时使用两个文字识别单元,即两个循环神经网络,两者可分别有针对性的工作,提高工作效率,其中使用的损失函数和分类函数是专门针对文字识别处理而提供的,实践表明对文字识别有很好的效果。附图说明图1是传统方法中基于深度学习的文字识别训练结构;图2是本专利技术中基于深度学习的文字识别训练结构;图3是实施例1的文字识别训练结构;图4是实施例2的文字识别训练结构。具体实施方式下面结合附图并通过具体实施方式来进一步说明本专利技术的技术方案。为更好地说明本专利技术,便于理解本专利技术的技术方案,本专利技术的典型但非限制性的实施例如下:本专利技术提供了一种基于深度学习的文字识别训练方法,首先确定待识别文字的图片或图像,通过卷积神经网络(ConvolutiongalNeuralNetwork,CNN)对输入的图像或图片进行特征提取,然后将提取的特征输入到循环神经网络(RecurrentNeuralNetwork,RNN)中,然后由循环神经网络输出识别结果,再通过待识别文字的图片或图像的标注,即具体文字的内容,与识别结果进行对比,并构建损失函数,最后由损失函数逐级反向传导,依此逐级修正神经网络来实现训练的目的。实施例1本专利技术的文字识别训练系统如图3所示,包括预处理单元、特征提取单元、文字识别单元、损失函数和映射单元;其中特征提取单元具体为卷积神经网络CNN,文字识别单元具体为循环神经网络RNN。预处理单元需要(1)为训练样本集,即包括文字内容的图片,进行标注,这里的标注具体指标识出具体的文字;(2)训练集中每张图片对文字库中文字类别的标注,图片中包含的文字类别标注不为0,图片中不包含的文字类别标注为0。具体如下:若图片包含文字为“前方道路直行”,则“前”“方”“道”“路”“直”“行”每个汉字对应一个类别,而再字库中,每个汉字都有自己对应的编码,例如:“前”对应编码0001“方”对应编码0002“道”对应编码0003“路”对应编码0004“直”对应编码0005“行”对应编码0006而字库中其他的没有文字的类别,例如空白或者标点符合等标注为0。通过汉字与编码的一一对应,以此作为分类损失函数,实现了准确的纠错。这种分类方式可同样适用于语音识别技术,其方式与文字识别技术相类似,都是通过卷积神经网络进行特征提取,再由循环神经网络进行分类,最后再由损失函数进行修正,最后完成训练,区别在于特征的不同,一个是图片或图像的特征,另一个是音频的特征。特征提取单元通过构建卷积神经网络CNN来实现,卷积神经网络首先通过卷积核对相片或图像进行初步的特征提取,初步提取的特征可包括部分文字,可以是一个也可以是多个;然后由卷积神经网络中的二次提取层或多次提取层逐级对上一级别提取的特征再次进行特征提取,得到需要的精准特征,去除了冗余特征;最后由卷积神经网络的全连接层将由同一图片或图像特征提取形成的所有子图像串联起来组成完整的提取特征集。文字识别单元通过构建循环神经网络RNN来实现,循环神经网络RNN的输入包括两种种数据,第一类数据为卷积神经网络CNN提取的特征数据,第二类数据为上一时候循环神经网络RNN的输出数据,最后循环神经网络RNN输出文字识别结果;为了确保文字识别的准确性通常需要考虑文字的通常用法,因此,在以上的基础上,循环神经网络RNN的输入还可包括第三类数据,即上一时候循环神经网络RNN对该时候的预测结果,该第三类数据可通过词典或字典的映射得到。经过卷积神经网络CNN和循环神经网络RNN得到图片或图像的识别结果,然后和图片或图像预先的标注进行对比,当对比结果有差异时,再将数据进行反向传播,在反向传播过程中,逐渐修正各神经网本文档来自技高网...

【技术保护点】
1.一种文字识别训练系统,其特征在于所述系统包括:特征提取单元、文字识别单元和损失函数单元;所述特征提取单元对待识别文字的图片或图像进行特征提取;所述文字识别单元将输入的所述特征进行文字识别得到识别结果;所述系统还包括:通过待识别文字的图片或图像的预先标注,与所述识别结果进行对比,并构建损失函数,并存储于损失函数单元,由所述损失函数单元中的所述损失函数逐级反向传导,逐级修正所述文字识别单元和所述特征提取单元;所述损失函数由两种不同类型的损失函数之和构成。

【技术特征摘要】
1.一种文字识别训练系统,其特征在于所述系统包括:特征提取单元、文字识别单元和损失函数单元;所述特征提取单元对待识别文字的图片或图像进行特征提取;所述文字识别单元将输入的所述特征进行文字识别得到识别结果;所述系统还包括:通过待识别文字的图片或图像的预先标注,与所述识别结果进行对比,并构建损失函数,并存储于损失函数单元,由所述损失函数单元中的所述损失函数逐级反向传导,逐级修正所述文字识别单元和所述特征提取单元;所述损失函数由两种不同类型的损失函数之和构成。2.根据权利要求1所述的系统,其特征在于:所述两种不同类型的损失函数分别为序列损失函数和分类损失函数。3.根据权利要求2所述的系统,其特征在于:所述分类损失函数表达字形相同的文字出现识别错误的概率。4.根据权利要求2所述的系统,其特征在于:所述系统的损失函数=a*序列损失函数+b*分类损失函数,其中a、b为权重系数。5.根据权利要求1-4中任一项所述的系统,其特征在于:所述文字识别单元包括第一文字识别单元和第二文字识别单元,其分别对应列损失函数和...

【专利技术属性】
技术研发人员:胡杰
申请(专利权)人:初速度苏州科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1