一种文本识别方法及系统技术方案

技术编号：34853735 阅读：68 留言：0更新日期：2022-09-08 07:54

本发明专利技术涉及一种文本识别方法及系统。该方法包括获取训练数据集；构建以深度残差网络作为特征提取模块，以双向长短期记忆网络作为序列变换模块的教师模型；并利用训练数据集训练所述教师模型；构建以深度可分离卷积、具有线性瓶颈的逆残差结构以及Hardswish激活函数确定的特征提取模块，以全卷积结构确定的序列变换模块的学生模型；根据训练好的教师模型和所述学生模型构建蒸馏框架；并利用所述训练数据集以及所述训练好的教师模型，蒸馏训练所述学生模型；利用测试数据集对训练好的学生模型进行测试，进而利用测试完成的学生模型进行文本识别。本发明专利技术在参数量和计算量减小的同时，提高识别准确率。高识别准确率。高识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本识别方法及系统

[0001]本专利技术涉及文本识别领域，特别是涉及一种文本识别方法及系统。

技术介绍

[0002]作为人类最有影响的专利技术之一，文字在人类生活中发挥了重要作用。光学字符识别(Optical Character Recognition，OCR)是由计算机处理光学图像进而识别其中的文本信息并转化为数字格式进行输出的技术，具有悠久的研究历史和广泛的应用场景，如电子文件分拣，身份信息识别，工业自动化，数字金融系统和车辆车牌识别等。传统的OCR基于图像处理(二值化、连通域分析、投影分析等)和统计机器学习(Adaboost、SVM)，过去20年间在印刷体和扫描文档上取得了不错的效果。但随着时代的发展与移动设备的普及，对拍摄图像中的文字识别成为主流需求，即对场景中文字的识别需求越来越突出，使用人工提取特征的传统OCR方法面对千变万化的场景文本会出现无法识别的情况。随着硬件性能的不断提升，使用深度学习方法代替人工提取特征成为了目前OCR的主流方法。然而，随着深度学习OCR技术的进步，模型规模越来越大，如英文场景下C...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法，其特征在于，包括：获取训练数据集；所述训练数据集为标有文本标签的图片集合；构建以深度残差网络作为特征提取模块，以双向长短期记忆网络作为序列变换模块的教师模型；并利用训练数据集训练所述教师模型；所述教师模型用于根据输入的图片，输出对应的标签；构建以深度可分离卷积、具有线性瓶颈的逆残差结构以及Hardswish激活函数确定的特征提取模块，以全卷积结构确定的序列变换模块的学生模型；根据训练好的教师模型和所述学生模型构建蒸馏框架；并利用所述训练数据集以及所述训练好的教师模型，蒸馏训练所述学生模型；利用测试数据集对训练好的学生模型进行测试，进而利用测试完成的学生模型进行文本识别。2.根据权利要求1所述的一种文本识别方法，其特征在于，所述根据训练好的教师模型和所述学生模型构建蒸馏框架，具体包括：将所述训练好的教师模型和所述学生模型的不同层进行连接，确定蒸馏路径；所述蒸馏路径包括：4条视觉特征蒸馏路径、1条序列特征蒸馏路径以及1条软标签蒸馏路径；根据所述蒸馏路径确定变换函数和相似度函数。3.根据权利要求2所述的一种文本识别方法，其特征在于，所述并利用所述训练数据集以及所述训练好的教师模型，蒸馏训练所述学生模型，具体包括：利用公式确定蒸馏训练时学生模型的损失函数；其中，为不同的视觉特征蒸馏路径上的损失函数，i∈[1,4]，α、β以及γ均为训练前设置的超参数，为序列特征蒸馏路径上的损失函数，为软标签蒸馏路径上的损失函数，为训练好的教师模型的损失函数。4.根据权利要求1所述的一种文本识别方法，其特征在于，所述利用测试数据集对训练好的学生模型进行测试，进而利用测试完成的学生模型进行文本识别，具体包括：利用树莓派3B+搭建边缘端测试平台；根据所述测试数据集，利用所述边缘端测试平台进行训练好的学生模型和训练好的教师模型的测试。5.一种文本识别系统，其特征在于，包括：训练数据集获取模...

【专利技术属性】
技术研发人员：李冰，徐启洺，唐舜，雷娜，
申请(专利权)人：首都师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人