本发明专利技术涉及一种文本识别方法及系统。该方法包括获取训练数据集;构建以深度残差网络作为特征提取模块,以双向长短期记忆网络作为序列变换模块的教师模型;并利用训练数据集训练所述教师模型;构建以深度可分离卷积、具有线性瓶颈的逆残差结构以及Hardswish激活函数确定的特征提取模块,以全卷积结构确定的序列变换模块的学生模型;根据训练好的教师模型和所述学生模型构建蒸馏框架;并利用所述训练数据集以及所述训练好的教师模型,蒸馏训练所述学生模型;利用测试数据集对训练好的学生模型进行测试,进而利用测试完成的学生模型进行文本识别。本发明专利技术在参数量和计算量减小的同时,提高识别准确率。高识别准确率。高识别准确率。
【技术实现步骤摘要】
一种文本识别方法及系统
[0001]本专利技术涉及文本识别领域,特别是涉及一种文本识别方法及系统。
技术介绍
[0002]作为人类最有影响的专利技术之一,文字在人类生活中发挥了重要作用。光学字符识别(Optical Character Recognition,OCR)是由计算机处理光学图像进而识别其中的文本信息并转化为数字格式进行输出的技术,具有悠久的研究历史和广泛的应用场景,如电子文件分拣,身份信息识别,工业自动化,数字金融系统和车辆车牌识别等。传统的OCR基于图像处理(二值化、连通域分析、投影分析等)和统计机器学习(Adaboost、SVM),过去20年间在印刷体和扫描文档上取得了不错的效果。但随着时代的发展与移动设备的普及,对拍摄图像中的文字识别成为主流需求,即对场景中文字的识别需求越来越突出,使用人工提取特征的传统OCR方法面对千变万化的场景文本会出现无法识别的情况。随着硬件性能的不断提升,使用深度学习方法代替人工提取特征成为了目前OCR的主流方法。然而,随着深度学习OCR技术的进步,模型规模越来越大,如英文场景下CRNN参数量为8.3MB,改进后的STAR
‑
Net大小是48.7MB,使用语义信息提升识别准确率的SRN参数量更是高达910MB,边缘端设备存储资源有限,模型参数量过大阻碍了深度学习OCR模型在边缘端的应用。因而亟需识别准确率并且规模小的文本识别深度学习模型。
技术实现思路
[0003]本专利技术的目的是提供一种文本识别方法及系统,在参数量和计算量减小的同时,提高识别准确率。
[0004]为实现上述目的,本专利技术提供了如下方案:
[0005]一种文本识别方法,包括:
[0006]获取训练数据集;所述训练数据集为标有文本标签的图片集合;
[0007]构建以深度残差网络作为特征提取模块,以双向长短期记忆网络作为序列变换模块的教师模型;并利用训练数据集训练所述教师模型;所述教师模型用于根据输入的图片,输出对应的标签;
[0008]构建以深度可分离卷积、具有线性瓶颈的逆残差结构以及Hardswish激活函数确定的特征提取模块,以全卷积结构确定的序列变换模块的学生模型;
[0009]根据训练好的教师模型和所述学生模型构建蒸馏框架;并利用所述训练数据集以及所述训练好的教师模型,蒸馏训练所述学生模型;
[0010]利用测试数据集对训练好的学生模型进行测试,进而利用测试完成的学生模型进行文本识别。
[0011]可选地,所述根据训练好的教师模型和所述学生模型构建蒸馏框架,具体包括:
[0012]将所述训练好的教师模型和所述学生模型的不同层进行连接,确定蒸馏路径;所述蒸馏路径包括:4条视觉特征蒸馏路径、1条序列特征蒸馏路径以及1条软标签蒸馏路径;
[0013]根据所述蒸馏路径确定变换函数和相似度函数。
[0014]可选地,所述并利用所述训练数据集以及所述训练好的教师模型,蒸馏训练所述学生模型,具体包括:
[0015]利用公式确定蒸馏训练时学生模型的损失函数;
[0016]其中,为不同的视觉特征蒸馏路径上的损失函数,i∈[1,4],α、β以及γ均为训练前设置的超参数,为序列特征蒸馏路径上的损失函数,为软标签蒸馏路径上的损失函数,为训练好的教师模型的损失函数。
[0017]可选地,所述利用测试数据集对训练好的学生模型进行测试,进而利用测试完成的学生模型进行文本识别,具体包括:
[0018]利用树莓派3B+搭建边缘端测试平台;
[0019]根据所述测试数据集,利用所述边缘端测试平台进行训练好的学生模型和训练好的教师模型的测试。
[0020]一种文本识别系统,包括:
[0021]训练数据集获取模块,用于获取训练数据集;所述训练数据集为标有文本标签的图片集合;
[0022]教师模型构建和训练模块,用于构建以深度残差网络作为特征提取模块,以双向长短期记忆网络作为序列变换模块的教师模型;并利用训练数据集训练所述教师模型;所述教师模型用于根据输入的图片,输出对应的标签;
[0023]学生模型构建模块,用于构建以深度可分离卷积、具有线性瓶颈的逆残差结构以及Hardswish激活函数确定的特征提取模块,以全卷积结构确定的序列变换模块的学生模型;
[0024]学生模型训练模块,用于根据训练好的教师模型和所述学生模型构建蒸馏框架;并利用所述训练数据集以及所述训练好的教师模型,蒸馏训练所述学生模型;
[0025]测试和识别模块,用于利用测试数据集对训练好的学生模型进行测试,进而利用测试完成的学生模型进行文本识别。
[0026]可选地,所述学生模型训练模块具体包括:
[0027]蒸馏路径确定单元,用于将所述训练好的教师模型和所述学生模型的不同层进行连接,确定蒸馏路径;所述蒸馏路径包括:4条视觉特征蒸馏路径、1条序列特征蒸馏路径以及1条软标签蒸馏路径;
[0028]变换函数和相似度函数确定单元,用于根据所述蒸馏路径确定变换函数和相似度函数。
[0029]可选地,所述学生模型训练模块具体包括:
[0030]损失函数确定单元,用于利用公式确定蒸馏训练时学生模型的损失函数;
[0031]其中,为不同的视觉特征蒸馏路径上的损失函数,i∈[1,4],α、β以及γ均为训练前设置的超参数,为序列特征蒸馏路径上的损失函数,为软标签蒸馏路径上的损失函数,为训练好的教师模型的损失函数。
[0032]可选地,所述测试和识别模块具体包括:
[0033]边缘端测试平台搭建单元,用于利用树莓派3B+搭建边缘端测试平台;
[0034]测试单元,用于根据所述测试数据集,利用所述边缘端测试平台进行训练好的学生模型和训练好的教师模型的测试。
[0035]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0036]本专利技术所提供的一种文本识别方法及系统,教师模型由深度残差网络和双向长短期记忆网络构成,学生模型的特征提取模块,使用深度可分离卷积、具有线性瓶颈的逆残差结构以及Hardswish激活函数;序列变换模块使用全卷积结构,相比于传统深度学习OCR模型使用的循环神经网络(Recurrent Neural Network,RNN)和LSTM结构,卷积结构的参数量更少;根据训练好的教师模型和所述学生模型构建蒸馏框架;并利用所述训练数据集以及所述训练好的教师模型,蒸馏训练所述学生模型,进而提高学生模型的识别准确率。
附图说明
[0037]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0038]图1为本专利技术所提供的一种文本识别方法流程示意图;
[0039]图2为蒸馏框架示意图;
[0040]图3为本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:获取训练数据集;所述训练数据集为标有文本标签的图片集合;构建以深度残差网络作为特征提取模块,以双向长短期记忆网络作为序列变换模块的教师模型;并利用训练数据集训练所述教师模型;所述教师模型用于根据输入的图片,输出对应的标签;构建以深度可分离卷积、具有线性瓶颈的逆残差结构以及Hardswish激活函数确定的特征提取模块,以全卷积结构确定的序列变换模块的学生模型;根据训练好的教师模型和所述学生模型构建蒸馏框架;并利用所述训练数据集以及所述训练好的教师模型,蒸馏训练所述学生模型;利用测试数据集对训练好的学生模型进行测试,进而利用测试完成的学生模型进行文本识别。2.根据权利要求1所述的一种文本识别方法,其特征在于,所述根据训练好的教师模型和所述学生模型构建蒸馏框架,具体包括:将所述训练好的教师模型和所述学生模型的不同层进行连接,确定蒸馏路径;所述蒸馏路径包括:4条视觉特征蒸馏路径、1条序列特征蒸馏路径以及1条软标签蒸馏路径;根据所述蒸馏路径确定变换函数和相似度函数。3.根据权利要求2所述的一种文本识别方法,其特征在于,所述并利用所述训练数据集以及所述训练好的教师模型,蒸馏训练所述学生模型,具体包括:利用公式确定蒸馏训练时学生模型的损失函数;其中,为不同的视觉特征蒸馏路径上的损失函数,i∈[1,4],α、β以及γ均为训练前设置的超参数,为序列特征蒸馏路径上的损失函数,为软标签蒸馏路径上的损失函数,为训练好的教师模型的损失函数。4.根据权利要求1所述的一种文本识别方法,其特征在于,所述利用测试数据集对训练好的学生模型进行测试,进而利用测试完成的学生模型进行文本识别,具体包括:利用树莓派3B+搭建边缘端测试平台;根据所述测试数据集,利用所述边缘端测试平台进行训练好的学生模型和训练好的教师模型的测试。5.一种文本识别系统,其特征在于,包括:训练数据集获取模...
【专利技术属性】
技术研发人员:李冰,徐启洺,唐舜,雷娜,
申请(专利权)人:首都师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。