当前位置: 首页 > 专利查询>浙江大学专利>正文

一种智能无透镜文字识别系统技术方案

技术编号:33736340 阅读:23 留言:0更新日期:2022-06-08 21:33
本发明专利技术公开了一种智能无透镜文字识别系统。包括光学模块和计算成像及智能文字定位识别模块,光学模块由可调制幅度掩膜板和传感器组成,其中掩膜板的透射光幅度分布被建模为二维卷积层,可作为参数被优化;计算成像及文字定位识别模块包含计算成像模型、文字定位模型和文字识别模型,输入数据为经过光学模块后在传感器上得到的原始数据,输出为预测的文字的文本形式,同时通过结果反馈来优化光学模块中的掩膜版透光幅度分布以及计算成像网络参数。本发明专利技术实现了软硬件一体化的无透镜成像和文字识别的深度学习模型优化,提高了在无透镜下的文字定位和文字识别的准确率,且该系统的每个模块具有通用性和普适性,具有很强的实际应用性。用性。用性。

【技术实现步骤摘要】
一种智能无透镜文字识别系统


[0001]本专利技术属于无透镜成像领域,具体涉及一种智能无透镜文字识别系统。

技术介绍

[0002]随着视觉任务的快速发展和应用,相机被集成在各种硬件设备上。某些应用场景对相机尺寸有严格的要求,无透镜相机是一种使用薄掩膜版替代镜头的成像系统,因此可以大大减小相机尺寸。
[0003]和带镜头的相机相比,无透镜相机需要对传感器上收集的数据进行计算成像才能恢复图像,但是基于无透镜重建的图像存在模糊、分辨率的缺点,导致无法胜任很多视觉任务,目前尚未有对基于无透镜的非单个字符文字检测和识别的研究。
[0004]因此,需要一套无透镜文字识别系统。

技术实现思路

[0005]针对目前无透镜成像技术由于较差的成像质量而未应用于非单个字母的文字定位和识别的情况,本专利技术提供了一种基于无透镜的文字定位和识别系统。识别准确率高且该系统方法具有通用性。
[0006]本专利技术采用的技术方案如下:
[0007]本专利技术的智能无透镜文字识别系统包括光学模块和计算成像及文字定位识别模块,光学模块主要由平行放置的可调制幅度掩膜板和光学传感器组成,待识别目标放置于光学模块前方,待识别目标发出的光线经可调制幅度掩膜板散射后,在光学传感器的平面上投射形成投影图像(原始数据),光学传感器将投影图像传输至计算成像及文字定位识别模块;
[0008]计算成像及文字识别模块包括计算成像模型、文字定位模型和文字识别模型,三个模型串行连接;计算成像及文字识别模块的输入为经光学模块后在传感器上得到的投影图像,输出为投影图像上文字的文本形式。
[0009]所述的可调制幅度掩膜板为由k*k个单元格组成的二值化掩膜版,每个单元格的值为1或0,1表示光线能通过,0表示光线不能通过。
[0010]投影图像经计算成像模型输出预测的重建图像;文字定位模型对输入的重建图像进行处理,输出图像中文字的位置;将文字定位模型的输出结果输入文字识别模型后,输出图像的文字识别结果;
[0011]计算成像及文字识别模块训练过程中,仅计算成像模型参与训练,需更新参数,文字定位模型和文字识别模型不参与训练。
[0012]计算成像模型为编码器

解码器体系的神经网络,具体采用U

NET;文字定位模型采用任意文字定位模型结构,具体采用CTPN;文字识别模型采用任意文字识别模型结构,具体采用CRNN。
[0013]可调制幅度掩膜板上的图案通过液晶显示器显示,掩模版上的图案随机生成或通
过训练优化后确定;通过训练优化后确定掩模版图案的方法包括以下步骤:
[0014]1)将待识别目标与光学模块的成像过程建模为二维卷积层,具体为:
[0015]m=w*o
[0016][0017]其中,w表示掩模版上的幅度分布,即掩模版上单元格的值分布;以掩模版中心点为原点构建坐标系,(i,j)为掩膜板上单元格中心点的坐标,w
i,j
表示掩膜板上坐标为(i,j)的单元格的值;
[0018]o表示待识别目标不经过掩模版时在传感器平面上缩放后的图像(即o表示待识别目标经过孔径时在传感器平面上缩放后的图像);以传感器平面中心点为原点构建坐标系,(x,y)表示投影图像的像素点在传感器平面上的坐标值,o
x,y
表示待识别目标不经过掩模版时在传感器平面的(x,y)处的像素值;o
x+i,y+j
表示在传感器平面上(x+i,y+j)处的像素值;
[0019]m表示待识别目标经过掩模版后投影在传感器平面上的图像;m
x,y
表示待识别目标经过掩模版后在传感器平面的(x,y)处的像素值;
[0020]k表示掩模版上单元格的行数或列数,i∈[1,k];
[0021]2)将二维卷积层进行二值化得到二值神经网络二维卷积层,结果如下:
[0022][0023]其中,
[0024][0025][0026]其中,w
b
表示对w进行二值化处理后的结果;
[0027]由于掩模版只有0和1值,我们使用二值神经网络来训练,二值神经网络使用sign函数将二连续值映射到

1或+1,随后加1并除以2;
[0028]3)将二值神经网络二维卷积层的参数w
b
作为模型参数与计算成像及文字定位识别模块一同训练优化;
[0029]3.1)训练过程中,通过电路调整对掩膜板的图案做随机初始化,并将随机初始化的结果作为二值神经网络卷积层的初始参数;
[0030]3.2)系统前向传播过程的训练:固定待识别目标,在真实物理场景中测量待识别目标经掩膜版后在光学传感器的平面上得到的投影图像,并将其作为计算成像及文字定位识别模块的输入;
[0031]反向传播过程的训练:计算成像及文字定位识别模块输出的预测图像与真实图像标签的损失函数Loss,将损失函数Loss反向传播至二值神经网络卷积层,更新二值神经网
络卷积层参数w
b
,并根据更新的参数w
b
调制可调掩膜版,调制结果作为下一轮训练时模型前向传播过程中的掩膜版图案;
[0032]3.3)训练完成后得到的掩膜版图案为优化后的结果。
[0033]所述的可调制掩模版的单元格尺寸大小和传感器平面上的像素点尺寸大小相同;待识别目标与可调制幅度掩膜板之间的距离d1远大于可调制幅度掩膜板和光学传感器之间的距离d2,d1>100d2;因此将掩模版上的幅度分布近似等于掩模版上的幅度分布在传感器平面上的投影。
[0034]所述的计算成像及文字定位识别模块在训练过程中的损失函数Loss为:
[0035]Loss=a
×
Loss1+b
×
Loss2;
[0036]其中,Loss1为计算成像模型输出的预测图像与真实图像标签(待识别目标图像)之间的误差;Loss2为计算成像及文字定位识别模块最终输出的预测文本与待识别目标的真实文字标签(待识别目标图像上的文本信息)之间的误差;a和b为权重。
[0037]本专利技术的有效效益:
[0038]本专利技术的无透镜文字识别系统能够减少镜头带来的尺寸限制,使得相机被集成在其他设备上更加方便。
[0039]本专利技术实现了软硬件一体化的无透镜成像和文字识别的深度学习模型优化,提高了在无透镜下的文字定位和文字识别的准确率,且该系统的每个模块具有通用性和普适性,具有很强的实际应用性。
附图说明
[0040]图1是本专利技术的整体数据流。
[0041]图2是本专利技术中光学模块的原理图。
[0042]图3是本专利技术中计算成像及文字定位识别模块的原理图。
具体实施方式
[0043]下面结合附图及具体实施例对本专利技术作进一步详细说明。
[0044]如图1所示,本专利技术的无透镜文字识别系统包括光学模块、计算成像本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能无透镜文字识别系统,其特征在于,包括光学模块和计算成像及文字定位识别模块,光学模块主要由平行放置的可调制幅度掩膜板和光学传感器组成,待识别目标放置于光学模块前方,待识别目标发出的光线经可调制幅度掩膜板散射后,在光学传感器的平面上投射形成投影图像,光学传感器将投影图像传输至计算成像及文字定位识别模块;可调制幅度掩膜板上的图案通过液晶显示器显示,掩模版上的图案随机生成或通过训练优化后确定;计算成像及文字识别模块包括计算成像模型、文字定位模型和文字识别模型,三个模型串行连接;计算成像及文字识别模块的输入为经光学模块后在传感器上得到的投影图像,输出为投影图像上文字的文本形式。2.根据权利要求1所述的一种智能无透镜文字识别系统,其特征在于,所述的可调制幅度掩膜板为由k*k个单元格组成的二值化掩膜版,每个单元格的值为1或0,1表示光线能通过,0表示光线不能通过。3.根据权利要求1所述的一种智能无透镜文字识别系统,其特征在于,投影图像经计算成像模型输出预测的重建图像;文字定位模型对输入的重建图像进行处理,输出图像中文字的位置;将文字定位模型的输出结果输入文字识别模型后,输出图像的文字识别结果;计算成像及文字识别模块训练过程中,仅计算成像模型参与训练,文字定位模型和文字识别模型不参与训练。4.根据权利要求3所述的一种智能无透镜文字识别系统,其特征在于,计算成像模型为编码器

解码器体系的神经网络,具体采用U

NET;文字定位模型采用任意文字定位模型结构,具体采用CTPN;文字识别模型采用任意文字识别模型结构,具体采用CRNN。5.根据权利要求1所述的一种智能无透镜文字识别系统,其特征在于,通过训练优化后确定掩模版图案的方法包括以下步骤:1)将待识别目标与光学模块的成像过程建模为二维卷积层,具体为:m=w*o其中,w表示掩模版上的幅度分布,即掩模版上单元格的值分布;以掩模版中心点为原点构建坐标系,(i,j)为掩膜板上单元格中心点的坐标,w
i,j
表示掩膜板上坐标为(i,j)的单元格的值;o表示待识别目标不经过掩模版时在传感器平面上缩放后的图像;以传感器平面中心点为原点构建坐标系,(x,y)表示投影图像的像素点在传感器平面上的坐标值,o
x,y
表示待识别目标不经过掩模版时在传感器平...

【专利技术属性】
技术研发人员:张颖而皇甫江涛
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1