一种手写英文单词识别方法及系统技术方案

技术编号:28037562 阅读:25 留言:0更新日期:2021-04-09 23:20
本发明专利技术提供一种手写英文单词识别方法及系统,包括:将待识别图像进行长度预处理,得到标准图像数据;将所述标准图像数据输入预先训练好的卷积神经网络模型,得到空间特征向量;将所述空间特征向量输入预先训练好的编码器,得到编码信息;将所述编码信息输入预先训练好的解码器,得到识别结果。本发明专利技术针对英文单词的序列特性,构造了卷积神经网络模型、编码器和解码器对手写英文单词进行识别,提高了手写英文单词识别的准确率。

【技术实现步骤摘要】
一种手写英文单词识别方法及系统
本专利技术涉及图像识别
,具体涉及一种手写英文单词识别方法及系统。
技术介绍
为了提高考试公平性以及生活便利性,对手写文字进行识别是一种新兴趋势。然而英文单词与汉字的特点不同,英文单词更注重字母排列顺序。因此现有的文字识别方法用于识别英文单词时,往往准确率不高,导致识别错误。
技术实现思路
针对现有技术的上述不足,本专利技术提供一种手写英文单词识别方法及系统,以解决上述技术问题。第一方面,本专利技术提供一种手写英文单词识别方法,包括:将待识别图像进行长度预处理,得到标准图像数据;将所述标准图像数据输入预先训练好的卷积神经网络模型,得到空间特征向量;将所述空间特征向量输入预先训练好的编码器,得到编码信息;将所述编码信息输入预先训练好的解码器,得到识别结果。进一步的,所述将待识别图像进行长度预处理,得到标准图像数据,包括:设置图像的宽度标准值和长宽比;将所述待识别图像转换为灰度图;将所述待识别图像的宽度调整为所述标准值,并根据所述长宽比调整所述待识别图像的长度;若所述长度达不到预设长度值,则用白色进行填充;对经灰度转换和长宽调整的待识别图像的图像数据进行去均值和归一化处理,得到标准图像数据。进一步的,所述方法还包括:构建卷积神经网络模型、含双隐藏层的双向长短期记忆网络和注意力机制的双向长短期记忆网络,其中,含双隐藏层的双向长短期记忆网络为编码器,注意力机制的双向长短期记忆网络为解码器;准备多张带有手写英文单词的图像,生成训练集、验证集和测试集;利用所述训练集和验证集对构建卷积神经网络模型、编码器和解码器进行训练;利用测试集对训练好的卷积神经网络模型、编码器和解码器进行测试,根据测试结果筛选最优的卷积神经网络模型、编码器和解码器。进一步的,所述构建卷积神经网络模型包括:设置卷积神经网络模型的Conv卷积层的初始化策略为每层输出的方差相差不超过预设阈值;设置卷积核的尺寸为3*3;将Relu设置为所述卷积神经网络模型的激活函数;选用MaxPooling池化层,并设置所述MaxPooling池化层采用VALID填充方式,池化窗口尺寸包括2*2和2*1;在部分卷积层后增加BatchNormalization层和dropout操作。进一步的,所述将所述空间特征向量输入预先训练好的编码器,得到编码信息,包括:编码器接收所述空间特征向量之后更新自身隐藏状态,将所述空间特征向量依次按照时间步进行双向传递;编码器的两层隐藏层执行同样的状态更新和双向传递操作后,连结最后一层隐藏层的双向隐藏状态,作为输出层的输入,得到编码器的编码信息。进一步的,所述将所述编码信息输入预先训练好的解码器,得到识别结果,包括:所述解码器接收所述编码信息后,初始化自身隐藏状态,并计算当前时间步各个编码信息的注意力权重,进行加权求和后得到上下文序列信息;所述解码器以上一时刻的输出和隐藏状态以及上下文序列信息此三者作为输入,更新自身隐藏状态,传递至输出层;输出层输出每一时刻概率最大的字符,作为最终的识别结果。第二方面,本专利技术提供一种手写英文单词识别系统,包括:预先处理单元,配置用于将待识别图像进行长度预处理,得到标准图像数据;图像识别单元,配置用于将所述标准图像数据输入预先训练好的卷积神经网络模型,得到空间特征向量;序列编码单元,配置用于将所述空间特征向量输入预先训练好的编码器,得到编码信息;序列解码单元,配置用于将所述编码信息输入预先训练好的解码器,得到识别结果。进一步的,所述预先处理单元包括:标准设置模块,配置用于设置图像的宽度标准值和长宽比;图像转换模块,配置用于将所述待识别图像转换为灰度图;尺寸调整模块,配置用于将所述待识别图像的宽度调整为所述标准值,并根据所述长宽比调整所述待识别图像的长度;长度填充模块,配置用于若所述长度达不到预设长度值,则用白色进行填充;二次处理模块,配置用于对经灰度转换和长宽调整的待识别图像的图像数据进行去均值和归一化处理,得到标准图像数据。进一步的,所述系统还包括:模型构建单元,配置用于构建卷积神经网络模型、含双隐藏层的双向长短期记忆网络和注意力机制的双向长短期记忆网络,其中,含双隐藏层的双向长短期记忆网络为编码器,注意力机制的双向长短期记忆网络为解码器;数据准备单元,配置用于准备多张带有手写英文单词的图像,生成训练集、验证集和测试集;模型训练单元,配置用于利用所述训练集和验证集对构建卷积神经网络模型、编码器和解码器进行训练;模型测试单元,配置用于利用测试集对训练好的卷积神经网络模型、编码器和解码器进行测试,根据测试结果筛选最优的卷积神经网络模型、编码器和解码器。进一步的,所述模型构建单元包括:第一设置模块,配置用于设置卷积神经网络模型的Conv卷积层的初始化策略为每层输出的方差相差不超过预设阈值;第二设置模块,配置用于设置卷积核的尺寸为3*3;第三设置模块,配置用于将Relu设置为所述卷积神经网络模型的激活函数;第四设置模块,配置用于选用MaxPooling池化层,并设置所述MaxPooling池化层采用VALID填充方式,池化窗口尺寸包括2*2和2*1;第五设置模块,配置用于在部分卷积层后增加BatchNormalization层和dropout操作。本专利技术的有益效果在于,本专利技术提供的手写英文单词识别方法及系统,针对英文单词的序列特性,构造了卷积神经网络模型、编码器和解码器对手写英文单词进行识别,提高了手写英文单词识别的准确率。此外,本专利技术设计原理可靠,结构简单,具有非常广泛的应用前景。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例的方法的示意性流程图。图2是本专利技术一个实施例的系统的示意性框图。具体实施方式为了使本
的人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。图1是本专利技术一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种手写英文单词识别系统。如图1所示,该方法包括:步骤110,将待识别图像进行长度预处理,得到标准图像数据;步骤120,将所述本文档来自技高网
...

【技术保护点】
1.一种手写英文单词识别方法,其特征在于,包括:/n将待识别图像进行长度预处理,得到标准图像数据;/n将所述标准图像数据输入预先训练好的卷积神经网络模型,得到空间特征向量;/n将所述空间特征向量输入预先训练好的编码器,得到编码信息;/n将所述编码信息输入预先训练好的解码器,得到识别结果。/n

【技术特征摘要】
1.一种手写英文单词识别方法,其特征在于,包括:
将待识别图像进行长度预处理,得到标准图像数据;
将所述标准图像数据输入预先训练好的卷积神经网络模型,得到空间特征向量;
将所述空间特征向量输入预先训练好的编码器,得到编码信息;
将所述编码信息输入预先训练好的解码器,得到识别结果。


2.根据权利要求1所述的方法,其特征在于,所述将待识别图像进行长度预处理,得到标准图像数据,包括:
设置图像的宽度标准值和长宽比;
将所述待识别图像转换为灰度图;
将所述待识别图像的宽度调整为所述标准值,并根据所述长宽比调整所述待识别图像的长度;
若所述长度达不到预设长度值,则用白色进行填充;
对经灰度转换和长宽调整的待识别图像的图像数据进行去均值和归一化处理,得到标准图像数据。


3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
构建卷积神经网络模型、含双隐藏层的双向长短期记忆网络和注意力机制的双向长短期记忆网络,其中,含双隐藏层的双向长短期记忆网络为编码器,注意力机制的双向长短期记忆网络为解码器;
准备多张带有手写英文单词的图像,生成训练集、验证集和测试集;
利用所述训练集和验证集对构建卷积神经网络模型、编码器和解码器进行训练;
利用测试集对训练好的卷积神经网络模型、编码器和解码器进行测试,根据测试结果筛选最优的卷积神经网络模型、编码器和解码器。


4.根据权利要求3所述的方法,其特征在于,所述构建卷积神经网络模型包括:
设置卷积神经网络模型的Conv卷积层的初始化策略为每层输出的方差相差不超过预设阈值;
设置卷积核的尺寸为3*3;
将Relu设置为所述卷积神经网络模型的激活函数;
选用MaxPooling池化层,并设置所述MaxPooling池化层采用VALID填充方式,池化窗口尺寸包括2*2和2*1;
在部分卷积层后增加BatchNormalization层和dropout操作。


5.根据权利要求1所述的方法,其特征在于,所述将所述空间特征向量输入预先训练好的编码器,得到编码信息,包括:
编码器接收所述空间特征向量之后更新自身隐藏状态,将所述空间特征向量依次按照时间步进行双向传递;
编码器的两层隐藏层执行同样的状态更新和双向传递操作后,连结最后一层隐藏层的双向隐藏状态,作为输出层的输入,得到编码器的编码信息。


6.根据权利要求1所述的方法,其特征在于,所述将所述编码信息输入预先训练好的解码器,得到识别结果,包括:
所述解码器接收所述编码信息后,初始化自身隐藏状态,并计算当前时间步各个编码信息的注意力...

【专利技术属性】
技术研发人员:马磊侯庆许信顺谭玉慧初宛晴
申请(专利权)人:山东山大鸥玛软件股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1