一种基于深度学习技术下的实时的字帖评分方法技术

技术编号:37154927 阅读:15 留言:0更新日期:2023-04-06 22:15
本发明专利技术公开一种基于深度学习技术下的实时的字帖评分方法,为了矫正由不同光照不同角度导致字帖发生形变的问题,所述方法首先对图片进行位置变换,再利用深度学习的方法进行字体定位检测,并将检测的出的文字利用坐标进行裁剪,然后利用训练的深度学习模型对文字进行识别,同时利用模型中的卷积神经网络对识别出的文字进行特征向量的提取,对所对应的标准汉字进行特征向量的提取,并将二者进行余弦距离的计算,最终完成评分。最终完成评分。最终完成评分。

【技术实现步骤摘要】
一种基于深度学习技术下的实时的字帖评分方法


[0001]本专利技术涉及图像识别
,具体而言,涉及一种基于深度学习技术下的实时的字帖评分方法。

技术介绍

[0002]根据我国第六次全国人口普查统计显示,我国小学生人口将近一亿人,小学生是国家未来的支撑,从小养成书写规范,对于小学生的语文成绩以及弘扬中国传统文字文化都有着积极作用。虽然有教师对小学生书写的作业本进行批改评分,但这已经不能满足多元化的需求,例如小学生在家学习时的书写作业,由于家长拍照角度、明亮程度以及曝光率的不同,使得字帖发生形变和颜色发生变化,教师对书写的评判会受到照片质量的影响,因此通过图像识别算法对小学生字帖评分系统应运而生。
[0003]传统的字帖评分算法包括:1)基于传统通过颜色和分割比例对字帖进行分割,并与模板文字进行简单比较的方法(后简称为方法一);2)通过神经网络提取特征并进行文字比较的方法(后简称为方法二)。其中方法一的算法其场景比较单一,其只是通过边缘检测提取文本框和颜色阈值进行文本框的定位,并通过传统算法对于分割的文字进行相似性比对,从而完成评分。但是由于采用边缘检测等传统算法受局限较大,其对于不同角度和光照下进行拍摄的字帖图片无法完成较为精准的评分。
[0004]随着深度学习技术的崛起,提出了基于神经网络进行特征提取,对提取的文本框进行位置矫正,并利用高级语义信息进行字体的相似性比较(方法二)。但由于方法二对文本框的定位部分仍然采用传统算法进行文本框的定位,而对于拍摄的不同角度和不同光照下的字帖发生形变,使得文本框定位并不准确,影响后续神经网络的特征提取,从而使得评分不精准。

技术实现思路

[0005]为了解决上述问题,本专利技术提供一种基于深度学习技术下的实时的字帖评分方法,通过利用深度学习技术方法和针对不同角度不同光照下的形变进行位置变换,克服了拍照角度不同等客观因素对字帖造成的形变和颜色变化带来的影响,提高了识别与评分的精度。
[0006]为达到上述目的,本专利技术提供了一种基于深度学习技术下的实时的字帖评分方法,其包括:步骤S1:收集训练测试数据构建图像数据集,具体包括收集不同学生书写的不同笔迹的字贴,并利用不同像素的设备在不同角度不同光照的条件下进行拍照所得到的图像数据组成集合;步骤S2:构建位置变换模块,通过霍夫直线检测与聚类算法对图像数据集中的图像进行位置变换,用以矫正整张图片由于在不同角度不同光照下拍摄所造成的形变;步骤S3:构建文本框定位模块,将位置变换模块输出图像的集合预处理后按照预
设比例分别划分为训练集、验证集和测试集,并利用基于深度学习的文字检测模型,对字帖中的所有文字进行定位训练;步骤S4:构建文字识别模块,将经过文本框定位模块定位后的图像按照预设比例分别划分为训练集、验证集和测试集,并通过基于深度学习的文字识别模型对文本框中文字进行识别训练,其中基于深度学习的文字识别模型包括卷积神经网络,用于提取文字特征向量;步骤S5:构建文字相似性对比模块,保存步骤S4中卷积神经网络提取的文字特征向量,将上述文字特征向量所对应的标准楷体汉字库中的汉字输入步骤S4的卷积神经网络提取对应的标准特征向量,将文字特征向量与对应的标准特征向量进行相似性比对得到相似度值;步骤S6:引入排名机制,对识别出的所有的相同的汉字的相似度值进行排序,并通过与基础分进行权重相加计算得到每一汉字的最后评分;以及将待评分字帖图片输入该字帖评分系统进行实时评分,具体为:步骤S7:将待评分字帖图片输入该字帖评分系统,通过步骤S2构建的位置变换模块进行位置变换,通过步骤S3构建的文本定位模块定位文本,通过步骤S4构建的文字识别模块对定位后的文字进行识别,再通过步骤S5构建文字相似性对比模块计算相似度值,最后通过步骤S6引入的排名机制给出最后评分,并输出系统。
[0007]在本专利技术一实施例中,其中,步骤S2具体为:步骤S21:对步骤S1构建的图像数据集中的数据进行筛选,并通过霍夫直线检测对每张图像数据中对应字帖的整个轮廓进行检测;步骤S22:通过聚类算法且设置其质心的个数k=4,得到对应字帖轮廓的四条直线,计算这四条直线两两相交的4个交点(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4),其中x1、x2、x3和x4分别代表对应交点的x轴坐标值,y1、y2、y3个y4分别代表对应交点的y轴坐标值;步骤S23:通过得到的4个交点的坐标对字帖进行透视变换,得到矫正后的字帖图片,其中,进行透视变换的变换矩阵M为:,其中矩阵M包括4部分,分别为:,用于表示线性变换;,用于平移;用于产生透视变换;a33表示为质子,设为常数1。
[0008]在本专利技术一实施例中,其中,步骤S3中的具体训练过程为:步骤S31:对位置变换模块输出图像的集合中的图像进行预处理,将每张图像调整为固定大小;步骤S32:将预处理后的图像集合按照预设比例分别划分为训练集、验证集和测试集,并对训练集和验证集进行人工标注;步骤S33:将人工标注后的训练集输入基于深度学习的文字检测模型进行训练;
步骤S34:分别将人工标注后的验证集与测试集输入训练后的文字检测模型进行验证和测试,当验证集和测试集的精度达到98%以上时,完成训练;否则重复步骤S33继续训练。
[0009]在本专利技术一实施例中,其中,步骤S4中的具体训练过程为:步骤S41:对经过文本框定位模块定位后的图像进行裁剪,并将裁剪后的图像调整为固定大小;步骤S42:将调整后的图像按照预设比例分别划分为训练集、验证集和测试集,并对训练集和验证集进行人工标注;步骤S43:将人工标注后的训练集输入基于深度学习的文字识别模型进行训练,其中,文字识别模型的最后是通过Softmax函数输出识别出文字的索引的,Softmax函数的公式具体为:式中,为预测为单词字典的第j个单词的概率,为第i个节点值,为第j个节点值,i和j均为大于0的整数;步骤S44:分别将人工标注后的验证集与测试集输入训练后的文字识别模型进行验证和测试,当验证集和测试集的精度达到98%以上时,完成训练;否则重复步骤S43继续训练。
[0010]在本专利技术一实施例中,其中,步骤S5具体为:步骤S51:提取并保存步骤S4中卷积神经网络提取的文字特征向量;步骤S52:根据文字特征向量找到步骤S43中对应的文字的索引;步骤S53:下载中国标准楷体汉字库,并将其输入步骤S4中的卷积神经网络进行特征提取,得到标准特征向量,通过步骤S43的Softmax函数找到对应索引,并以对应索引作为关键字将标准特征向量存储到数据库中;步骤S54:根据步骤S52的每一文字的索引,从数据库中查找关键字,并获取与其对应的标准特征向量;步骤S55:通过下式计算相同索引的文字特征向量与标准特征向量的余弦距离,并将余弦距离作为相似度值,式中,A为文字特征向量,B为标准特征向量,n为特征向量的维度,θ为同一维度的文字特征向量与标准特征向量之间的角度值。
[0011]在本专利技术一实施例中,其中,步骤S3和步骤S4中训练集、验证集和测试集的划分比例为3:1:1。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习技术下的实时的字帖评分方法,其特征在于,包括:步骤S1:收集训练测试数据构建图像数据集,具体包括收集不同学生书写的不同笔迹的字贴,并利用不同像素的设备在不同角度不同光照的条件下进行拍照所得到的图像数据组成集合;步骤S2:构建位置变换模块,通过霍夫直线检测与聚类算法对图像数据集中的图像进行位置变换,用以矫正整张图片由于在不同角度不同光照下拍摄所造成的形变;步骤S3:构建文本框定位模块,将位置变换模块输出图像的集合预处理后按照预设比例分别划分为训练集、验证集和测试集,并利用基于深度学习的文字检测模型,对字帖中的所有文字进行定位训练;步骤S4:构建文字识别模块,将经过文本框定位模块定位后的图像按照预设比例分别划分为训练集、验证集和测试集,并通过基于深度学习的文字识别模型对文本框中文字进行识别训练,其中基于深度学习的文字识别模型包括卷积神经网络,用于提取文字特征向量;步骤S5:构建文字相似性对比模块,保存步骤S4中卷积神经网络提取的文字特征向量,将上述文字特征向量所对应的标准楷体汉字库中的汉字输入步骤S4的卷积神经网络提取对应的标准特征向量,将文字特征向量与对应的标准特征向量进行相似性比对得到相似度值;步骤S6:引入排名机制,对识别出的所有的相同的汉字的相似度值进行排序,并通过与基础分进行权重相加计算得到每一汉字的最后评分;以及将待评分字帖图片输入该字帖评分系统进行实时评分,具体为:步骤S7:将待评分字帖图片输入该字帖评分系统,通过步骤S2构建的位置变换模块进行位置变换,通过步骤S3构建的文本定位模块定位文本,通过步骤S4构建的文字识别模块对定位后的文字进行识别,再通过步骤S5构建文字相似性对比模块计算相似度值,最后通过步骤S6引入的排名机制给出最后评分,并输出系统。2.根据权利要求1所述的基于深度学习技术下的实时的字帖评分方法,其特征在于,步骤S2具体为:步骤S21:对步骤S1构建的图像数据集中的数据进行筛选,并通过霍夫直线检测对每张图像数据中对应字帖的整个轮廓进行检测;步骤S22:通过聚类算法且设置其质心的个数k=4,得到对应字帖轮廓的四条直线,计算这四条直线两两相交的4个交点(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4),其中x1、x2、x3和x4分别代表对应交点的x轴坐标值,y1、y2、y3个y4分别代表对应交点的y轴坐标值;步骤S23:通过得到的4个交点的坐标对字帖进行透视变换,得到矫正后的字帖图片,其中,进行透视变换的变换矩阵M为:,其中矩阵M包括4部分,分别为:,用于表示线性变换;,用于平移;
用于产生透视...

【专利技术属性】
技术研发人员:林海华琚午阳罗鑫
申请(专利权)人:北京睿芯高通量科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1