一种智能扫描笔的图像识别方法、装置以及智能扫描笔制造方法及图纸

技术编号:39158920 阅读:12 留言:0更新日期:2023-10-23 15:01
本发明专利技术提出智能扫描笔的图像识别方法,具体涉及人工智能技术领域,该方法为:S0:构建、训练并测试得到图像文本识别模型;S1:图像采集S2:图像预处理S4:使用图像文本识别模型对预处理图像进行文本识别,同时获取图像中的语言信息和视觉特征,输出预处理图像中包含的文本内容。本发明专利技术还提供一种装置和智能扫描笔。相比于现有技术,本发明专利技术提供的图像识别方法不需要额外的语言模型,将原有的两步识别图像文本内容转变成为一步识别,自适应地将视觉和语言信息考虑在一个统一的结构中,在保持高效的同时展现出更强的语言能力,应用与扫描笔中能显著提升扫描笔的文本识别准确度,加快扫描笔文本识别的速度,帮助用户获得更好的性能体验。验。验。

【技术实现步骤摘要】
一种智能扫描笔的图像识别方法、装置以及智能扫描笔


[0001]本专利技术涉及人工智能
,尤其涉及一种智能扫描笔。

技术介绍

[0002]扫描笔作为一种便携式的电子设备,可将手写或印刷的文本扫描后转换为数字格式,对其进一步做出显示、编辑、TTS语音播放、翻译、分享等操作。
[0003]其工作过程中主要可分为图像采集、图像处理和图像识别等步骤:用户首先需手持扫描笔对准需要扫描的文本,此时扫描笔笔尖处设置的光学传感器工作,采集笔尖处的文本的图像;而后,扫描笔内部将对采集到的图像进行处理,最后将处理好的图像送入图像识别模型中进行文本识别,得到图像中的文本信息后,再进一步根据用户需求,对该文本信息进一步做出显示、翻译等处理。
[0004]现有技术中应用于扫描笔中的图像识别算法通常采用两步走的方法完成,即在将处理好的图像送入图像识别模型后,图像识别模型首先基于视觉分析方法对图像进行视觉预测,得出预测结果后,再以文本模型纠正该预测结果,最终得到文本识别结果,采用这样的方法时,图像识别模型将独立构建视觉预测模块和语言纠正模块,两模块单独考虑送入的图像中的视觉信息和文本信息。以申请号为“202310604317.5”的中国专利申请文件为例,其中清楚记载了一种词典笔的文本识别方法及装置,通过识别词典笔在扫描过程中获取的文本图像内的词语内容,在词语内容与词典笔词库内的信息不能匹配时,对词语内容进行字符信息比对,并判定字符状态,在字符完整状态下确定文本错误,在字符残缺状态下通过识别的完整字符内容与词典笔词库内的信息进行匹配,并判定对残缺字符的处置方式,包括将残缺字符丢弃或确定词语内容的关键字,基于关键字与残余字符的语义关联关系替换残余字符与词典笔词库内的信息进行匹配识别,进而,实现了对文本识别起始点以及终止点处的不完整字符进行丢弃或者识别补全,更好地适用对大密度文本的识别,提高了文本识别的准确率以及效率。
[0005]以上将视觉预测和文本语言纠正两模块区分开、对输入模型的图像先进行图像预测后再做出语言纠正的方法应用到具体的扫描笔中时,由于其处理较繁冗,其处理速度较慢,且由于视觉预测和文本语言纠正两模块独立工作,扫描笔尖端处扫描得到的含文本图像中的勾画痕迹、背景纹理、污渍遮挡等极容易影响最终的文本识别结果,扫描笔的准确率也并不理想。

技术实现思路

[0006]为了解决上述问题,本专利技术提出一种智能扫描笔的图像识别方法,该识别方法将视觉和语言模型当作一个整体,对图像一同获取语言信息是和视觉特征,不需要额外的语言模型,具体应用在扫描笔上时,能获得更高的准确率和更快的文本识别速度。
[0007]本专利技术还提供一种智能扫描笔的图像识别装置以及智能扫描笔以应用上述方法。
[0008]本专利技术提供的技术方案如下:
一种智能扫描笔的图像识别方法,该方法包括以下步骤:S0:构建、训练并测试得到图像文本识别模型;S1:图像采集:设置图像采集器,扫描得到目标区域的原始图像;S2:图像预处理:对原始图像进行预处理得到预处理图像;S4:使用图像文本识别模型对预处理图像进行文本识别,同时获取图像中的语言信息和视觉特征,输出预处理图像中包含的文本内容。
[0009]进一步的,S0:构建、训练并测试得到图像文本识别模型包括有以下子步骤:S01:构建模型;S02:准备训练数据集;S03:训练模型;S04:测试模型。
[0010]S01:构建模型包括有以下子步骤:进一步的,S01:构建模型具体包括有:S011:分别搭建特征提取网络、掩码语言感知模块以及视觉推理模块;S012:设置特征提取网络、掩码语言感知模块以及视觉推理模块依次连接以构建成为构建待训图像文本识别模型。
[0011]进一步的,S02具体为:S021:选用若干张训练图像;S022:对每一张训练图像做出单词级标注;S023:对已经标注出单词的数据集中的每一张训练图像,根据当前图像上标注的单词的长度随机生成的字符索引;S024:收集所有带单词级标注以及字符索引的训练图像形成训练数据集。
[0012]进一步的,S03:训练模型包括有以下子步骤:S031:从训练数据集选择一个图像输入到待训图像文本识别模型中;S032:特征提取网络对当前输入的图像进行特征提取,得到当前图像的二维特征向量;S033:掩码语言感知模块对当前图像的二维特征向量、当前图像所携带的单词级标注、当前图像所携带的字符索引做出字符掩码映射处理,得到遮挡特征映射;S034:组合当前图像、当前图像的二维特征向量、遮挡特征映射得到带遮挡字符的图像;S035:将带遮挡字符的图像输入到视觉推理模块中,由视觉推理模块视觉空间捕获长距离的信息,预测对应的文本行识别内容;S036:循环S031

S035直至训练数据集中所有图像都被输入到待训图像文本识别模型中,得到待测图像文本识别模型。
[0013]进一步的,04包括有以下子步骤:S041A:选用若干张测试图像集合成为第一测试数据集;S042A:摘除待测图像文本识别模型中的掩码语言感知模块,将特征提取网络直接与视觉推理模块连接;S043A:将测试数据集中的每一张测试图像依次输入到特征提取网络中,由特征提
取网络对当前输入的测试图像进行特征提取,得到当前测试图像的二维特征向量后,将该二维特征向量直接输入到视觉推理模块中,由预测视觉推理模块对应的文本行识别内容,得到当前测试图像的文本识别结果;S044A:循环S041A

S043A直至测试数据集中所有测试图像都被输入到待训图像文本识别模型,得到第一待评估图像文本识别模型。
[0014]进一步的,S04还包括有以下子步骤:S041B:选用若干张测试图像,对每一张测试图像做出单词级标注,根据当前测试图像上标注的单词的长度随机生成的字符索引;集合所有携带单词级标注以及字符索引的测试图像成为第二测试数据集;S042B:将测试数据集中的每一张测试图像依次输入到待测图像文本识别模型中,得到当前测试图像的文本识别结果;S043B:循环S041B

S042B直至测试数据集中所有测试图像都被输入到待训图像文本识别模型,得到第二待评估图像文本识别模型。
[0015]进一步的,S04还包括有:评估第一待评估图像文本识别模型和第二待评估图像文本识别模型,选择较优者作为最终的图像文本识别模型。
[0016]本专利技术还提供一种智能扫描笔的图像识别装置,该装置存储有如上述的智能扫描笔的图像识别方法并受控执行该方法。
[0017]本专利技术还提供一种智能扫描笔,该智能扫描笔应用如上所述的智能扫描笔的图像识别装置。
[0018]本专利技术的有益效果为:相比于现有技术,本专利技术提供的图像识别方法不需要额外的语言模型,将原有的两步识别图像文本内容转变成为一步识别,自适应地将视觉和语言信息考虑在一个统一的结构中,在保持高效的同时展现出更强的语言能力,应用与扫描笔中能显著提升扫描笔的文本识别准确度,加快扫描笔文本识别的速度,帮助用户获得更好的性能体验。...

【技术保护点】

【技术特征摘要】
1.一种智能扫描笔的图像识别方法,其特征在于,该方法包括以下步骤:S0:构建、训练并测试得到图像文本识别模型;S1:图像采集:设置图像采集器,扫描得到目标区域的原始图像;S2:图像预处理:对原始图像进行预处理得到预处理图像;S4:使用图像文本识别模型对预处理图像进行文本识别,同时获取图像中的语言信息和视觉特征,输出预处理图像中包含的文本内容。2.如权利要求1所述的智能扫描笔的图像识别方法,其特征在于,所述S0:构建、训练并测试得到图像文本识别模型包括有以下子步骤:S01:构建模型;S02:准备训练数据集;S03:训练模型;S04:测试模型。3.如权利要求2所述的智能扫描笔的图像识别方法,其特征在于,所述S01:构建模型包括有以下子步骤:S01:构建模型具体包括有:S011:分别搭建特征提取网络、掩码语言感知模块以及视觉推理模块;S012:设置特征提取网络、掩码语言感知模块以及视觉推理模块依次连接以构建成为构建待训图像文本识别模型。4.如权利要求3所述的智能扫描笔的图像识别方法,其特征在于,所述S02具体为:S021:选用若干张训练图像;S022:对每一张训练图像做出单词级标注;S023:对已经标注出单词的数据集中的每一张训练图像,根据当前图像上标注的单词的长度随机生成的字符索引;S024:收集所有带单词级标注以及字符索引的训练图像形成训练数据集。5.如权利要求4所述的智能扫描笔的图像识别方法,其特征在于,所述S03:训练模型包括有以下子步骤:S031:从训练数据集选择一个图像输入到待训图像文本识别模型中;S032:特征提取网络对当前输入的图像进行特征提取,得到当前图像的二维特征向量;S033:掩码语言感知模块对当前图像的二维特征向量、当前图像所携带的单词级标注、当前图像所携带的字符索引做出字符掩码映射处理,得到遮挡特征映射;S034:组合当前图像、当前图像的二维特征向量、遮挡特征映射得到带遮挡字符的图像;S035:将带遮挡字符的图像输入到视觉推理模块中,由视觉推理模块视觉空间捕获长距离的信息,预测对应的文本行识别内容;S036:循环S031...

【专利技术属性】
技术研发人员:车建波
申请(专利权)人:深圳市贝铂智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1