一种轻量化文字识别模型设计方法、系统、装置及介质制造方法及图纸

技术编号:33727761 阅读:33 留言:0更新日期:2022-06-08 21:22
本发明专利技术公开了一种轻量化文字识别模型设计方法、系统、装置及介质,其中方法包括:选取基准模型:采用基于卷积递归神经网络的文本行识别模型作为基准模型;网络结构搜索:采用ProxylessNAS网络结构搜索算法搜索适用于文字识别任务的主干网络,使用LayeNorm层作为特征序列的归一化层;知识蒸馏:采用基于特征的知识蒸馏方法提升轻量化模型性能,基于SVD分解对蒸馏方法中回归器权重进行赋值,对教师模型提取的特征进行降维;蒸馏辅助网络结构搜索:通过在网络搜索过程中加入蒸馏学习辅助搜索过程。本发明专利技术通过将知识蒸馏与网络结构搜索模型进行有机结合,解决现有方法计算量与存储量过大问题,使得文字识别模型能够部署到移动端设备上,可广泛应用于人工智能技术领域。可广泛应用于人工智能技术领域。可广泛应用于人工智能技术领域。

【技术实现步骤摘要】
一种轻量化文字识别模型设计方法、系统、装置及介质


[0001]本专利技术涉及模式识别与人工智能
,尤其涉及一种轻量化文字识别模型设计方法、系统、装置及介质。

技术介绍

[0002]文字为人类理解外部世界提供了重要的信息资源,近年来人工智能技术不断发展,如何使机器学会阅读文字以及理解文字成为了学术界和工业界关心的热点课题。文字识别作为文本从图像到数字化的重要步骤,对整个系统的性能具有重要的影响。
[0003]当下,随着大数据的发展以及GPU等硬件技术的提升,基于深度学习的场景文字检测算法层出不穷,相比于传统的图像处理方法在性能上有一定程度的提升。但是,基于深度学习的方法通常需要占用大量的计算资源和存储空间,这一定程度限制了文字识别算法的落地应用,特别是在各种移动端以及边缘设备上的应用。而移动设备作为人们最常使用的电子设备之一,在文字翻译、扫描文档数字化等实际应用场合均对文字识别技术有重大的需求,因此,研究一个高效的轻量化的文字识别模型,对促进文字识别技术的落地具有一定的研究意义。

技术实现思路

[0004]为至少一定本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种轻量化文字识别模型设计方法,其特征在于,包括以下步骤:选取基准模型:采用基于卷积递归神经网络的文本行识别模型作为基准模型,所述基准模型包括主干网络、特征序列分类层以及时序分类连结解码模块,所述基准模型不包括长短期记忆模块;其中,所述主干网用于对输入图像进行特征序列的提取;所述特征序列分类层用于对特征序列进行分类,判断特征序列中每个特征点所属文字类别;所述时序分类连结解码模块用于对分类后的特征序列进行对齐解码处理;网络结构搜索:采用ProxylessNAS网络结构搜索算法搜索适用于文字识别任务的主干网络,使用LayeNorm层作为特征序列的归一化层,提升特征序列的归一化效果,获取更适用于文本行识别任务的主干网络;知识蒸馏:采用基于特征的知识蒸馏方法提升轻量化模型性能,基于SVD分解对蒸馏方法中回归器权重进行赋值,对教师模型提取的特征进行降维,以提升蒸馏学习效果;蒸馏辅助网络结构搜索:通过在网络搜索过程中加入蒸馏学习辅助搜索过程,以提升搜索网络在后续蒸馏学习中的性能。2.根据权利要求1所述的一种轻量化文字识别模型设计方法,其特征在于,所述ProxylessNAS网络结构搜索算法通过以下方式获得:从搜索空间中构建超网络,超网络中每一层包含多种操作模块,每个模块对应一个结构参数,所述结构参数用于表示每个模块的重要程度,每个模块自身对应权重参数进行特征提取;超网络训练时,对超网络的权重参数与结构参数进行交替迭代式更新,使用时序分类连结作为超网络训练时的损失函数;训练结束后,选取超网络每层中结构参数最大的模块,构成搜索所得的目标网络。3.根据权利要求1所述的一种轻量化文字识别模型设计方法,其特征在于,使用LayeNorm层作为特征序列的归一化层,具体为:对于主干网络中每一层,使用BatchNorm层作为归一化层,而对主干网提取的特征序列,使用LayerNorm层作为归一化层,缓解以BatchNorm层作为归一化层时,特征序列中由于空节点过多导致的均值、方差统计量出现偏差的问题。4.根据权利要求1所述的一种轻量化文字识别模型设计方法,其特征在于,所述知识蒸馏,包括:采用基于特征的知识蒸馏方法,使用的知识为教师网络提取的特征序列,使用一个1
×
1的卷积回归器对特征序列进行降维,使教师特征的通道...

【专利技术属性】
技术研发人员:谢灿宇金连文林炜丰彭德智
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1