一种单点文字识别方法及装置制造方法及图纸

技术编号:34773152 阅读:23 留言:0更新日期:2022-08-31 19:39
一种单点文字识别方法及装置,该方法对用户的使用状态进行判断,使用状态判断过程获取用户扫描的图片序列进行子图表征;根据子图表征结果计算子图片帧间相似度差异,当帧间相似度差异小于给定的相似度差异阈值时,判定用户使用状态为单点模式;单点模式时,将图片序列中的子图片拼接为汇总图片;对子图片拼接后的汇总图片左右边界进行选择界定,对选择界定完左右边界的汇总图片进行字符识别和输出。当帧间相似度差异不小于给定的相似度差异阈值时,判定用户使用状态为滑动模式,将对图片序列拼接为汇总图片并直接进行字符识别和输出。本发明专利技术提高划词笔单点场景下的识别准确度和用户体验,同时又能保证滑动场景下的使用效果。同时又能保证滑动场景下的使用效果。同时又能保证滑动场景下的使用效果。

【技术实现步骤摘要】
一种单点文字识别方法及装置


[0001]本专利技术属于文本识别
,具体涉及一种单点文字识别方法及装置。

技术介绍

[0002]目前,摄像头、图片拼接和OCR技术广泛应用在划词笔产品中,现有产品面向是滑动扫描场景,滑动扫描场景下,基于摄像头的划词技术,包括图片拼接模块和OCR识别模块,其中,摄像头对用户滑动过的区域拍摄,获得图片序列。图片拼接模块将图片序列拼接成单张图片,OCR识别模块对拼接后的图片进行识别,获得用户滑动区域文字的识别结果。
[0003]但是现阶段中,对于单点场景下的图片拼接和OCR识别的效果还有待提高。单点场景下容易得到错误的识别结果或者无法得到识别结果,主要有两个原因:相比于滑动场景,在单点场景下,摄像头拍摄的前后位置字符不完整;针对滑动场景的参数配置,并不适合单点场景,易出现字被截断或者无有效的拼接图片结果的问题。如何在保证滑动场景使用效果的前提下提高单点场景下文字识别的准确度是亟待解决的技术问题。

技术实现思路

[0004]为此,本专利技术提供一种单点文字识别方法及装置,解决单点场景下易出现字被截断或者无有效的拼接图片,文字识别的准确度低,且无法保证滑动场景使用效果的问题。
[0005]为了实现上述目的,本专利技术提供如下技术方案:一种单点文字识别方法,包括以下步骤:
[0006]1)对用户的使用状态进行判断,所述使用状态判断过程获取用户扫描的图片序列,对所述图片序列中的子图片进行子图表征;
[0007]2)根据子图表征结果计算子图片帧间相似度差异,当所述帧间相似度差异小于给定的相似度差异阈值时,判定用户使用状态为单点模式;
[0008]3)当用户使用状态为单点模式时,将所述图片序列中的子图片拼接为汇总图片;
[0009]4)对子图片拼接后的所述汇总图片左右边界进行选择界定,对选择界定完左右边界的所述汇总图片进行字符识别和输出。
[0010]作为单点文字识别方法的优选方案,步骤1)中,对所述图片序列中的子图片进行子图表征时,将所述图片序列中的子图片进行压缩,选择压缩后的子图片的哈希值进行图片表征。
[0011]作为单点文字识别方法的优选方案,步骤3)中,将所述图片序列中的子图片拼接为汇总图片,确定所述汇总图片中的文字所在区域时,对上下结构文字和投影不足文字进行开始位置修正。
[0012]作为单点文字识别方法的优选方案,步骤4)包括:
[0013]41)对拼接后的所述汇总图片进行二值化,并进行Y轴方向投影得到投影图;
[0014]42)扫描判断所述投影图中的像素值,得到字符边界信息;
[0015]43)根据字符边界信息,判断候选字符的宽度信息、最左边候选字符中心位置距离
所述汇总图片左边缘的相对位置,最右边候选字符中心位置距离所述汇总图片右边缘的相对位置;
[0016]44)获取除最左边候选字符和最右边候选字符之外的字符平均宽度;
[0017]45)根据最左边候选字符和字符平均宽度判断判断最左边字符是否完整,根据最右边候选字符和字符平均宽度判断判断最右边字符是否完整;
[0018]46)若最左边字符为残缺字符,根据最左边候选字符中心位置距离所述汇总图片左边缘的相对位置确定所述汇总图片的左边界;
[0019]若最右边字符为残缺字符,根据最右边候选字符中心位置距离所述汇总图片右边缘的相对位置确定所述汇总图片的右边界。
[0020]作为单点文字识别方法的优选方案,步骤2)中,当所述帧间相似度差异不小于给定的相似度差异阈值时,判定用户使用状态为滑动模式,将对所述图片序列拼接为所述汇总图片并直接进行字符识别和输出。
[0021]本专利技术还提供一种单点文字识别装置,包括:
[0022]使用状态判断模块,用于对用户的使用状态进行判断;所述使用状态判断模块包括:
[0023]子图表征子模块,用于所述使用状态判断过程获取用户扫描的图片序列,对所述图片序列中的子图片进行子图表征;
[0024]相似度判断子模块,用于根据子图表征结果计算子图片帧间相似度差异,当所述帧间相似度差异小于给定的相似度差异阈值时,判定用户使用状态为单点模式;
[0025]子图拼接模块,用于当用户使用状态为单点模式时,将所述图片序列中的子图片拼接为汇总图片;
[0026]边界选择模块,用于对子图片拼接后的所述汇总图片左右边界进行选择界定;
[0027]识别输出模块,用于对选择界定完左右边界的所述汇总图片进行字符识别和输出。
[0028]作为单点文字识别装置的优选方案,所述使用状态判断模块还包括:
[0029]压缩处理子模块,用于对所述图片序列中的子图片进行子图表征时,将所述图片序列中的子图片进行压缩,选择压缩后的子图片的哈希值进行图片表征。
[0030]作为单点文字识别装置的优选方案,所述子图拼接模块包括:
[0031]位置修正子模块,用于将所述图片序列中的子图片拼接为汇总图片,确定所述汇总图片中的文字所在区域时,对上下结构文字和投影不足文字进行开始位置修正。
[0032]作为单点文字识别装置的优选方案,所述边界选择模块包括:
[0033]投影处理子模块,用于对拼接后的所述汇总图片进行二值化,并进行Y轴方向投影得到投影图;
[0034]字符边界提取子模块,用于扫描判断所述投影图中的像素值,得到字符边界信息;
[0035]字符边界分析子模块,用于根据字符边界信息,判断候选字符的宽度信息、最左边候选字符中心位置距离所述汇总图片左边缘的相对位置,最右边候选字符中心位置距离所述汇总图片右边缘的相对位置;
[0036]平均宽度获取子模块,用于获取除最左边候选字符和最右边候选字符之外的字符平均宽度;
[0037]字符完整度判断子模块,用于根据最左边候选字符和字符平均宽度判断判断最左边字符是否完整,还用于根据最右边候选字符和字符平均宽度判断判断最右边字符是否完整;
[0038]字符边界界定子模块,用于若最左边字符为残缺字符,根据最左边候选字符中心位置距离所述汇总图片左边缘的相对位置确定所述汇总图片的左边界;
[0039]若最右边字符为残缺字符,根据最右边候选字符中心位置距离所述汇总图片右边缘的相对位置确定所述汇总图片的右边界。
[0040]作为单点文字识别装置的优选方案,所述相似度判断子模块中,当所述帧间相似度差异不小于给定的相似度差异阈值时,判定用户使用状态为滑动模式;将对所述图片序列拼接为所述汇总图片并直接进行字符识别和输出。
[0041]本专利技术具有如下优点:对用户的使用状态进行判断,使用状态判断过程获取用户扫描的图片序列,对图片序列中的子图片进行子图表征;根据子图表征结果计算子图片帧间相似度差异,当帧间相似度差异小于给定的相似度差异阈值时,判定用户使用状态为单点模式;当用户使用状态为单点模式时,将图片序列中的子图片拼接为汇总图片;对子图片拼接后的汇总图片左右边界进行选择界本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单点文字识别方法,其特征在于,包括以下步骤:1)对用户的使用状态进行判断,所述使用状态判断过程获取用户扫描的图片序列,对所述图片序列中的子图片进行子图表征;2)根据子图表征结果计算子图片帧间相似度差异,当所述帧间相似度差异小于给定的相似度差异阈值时,判定用户使用状态为单点模式;3)当用户使用状态为单点模式时,将所述图片序列中的子图片拼接为汇总图片;4)对子图片拼接后的所述汇总图片左右边界进行选择界定,对选择界定完左右边界的所述汇总图片进行字符识别和输出。2.根据权利要求1所述的一种单点文字识别方法,其特征在于,步骤1)中,对所述图片序列中的子图片进行子图表征时,将所述图片序列中的子图片进行压缩,选择压缩后的子图片的哈希值进行图片表征。3.根据权利要求2所述的一种单点文字识别方法,其特征在于,步骤3)中,将所述图片序列中的子图片拼接为汇总图片,确定所述汇总图片中的文字所在区域时,对上下结构文字和投影不足文字进行开始位置修正。4.根据权利要求3所述的一种单点文字识别方法,其特征在于,步骤4)包括:41)对拼接后的所述汇总图片进行二值化,并进行Y轴方向投影得到投影图;42)扫描判断所述投影图中的像素值,得到字符边界信息;43)根据字符边界信息,判断候选字符的宽度信息、最左边候选字符中心位置距离所述汇总图片左边缘的相对位置,最右边候选字符中心位置距离所述汇总图片右边缘的相对位置;44)获取除最左边候选字符和最右边候选字符之外的字符平均宽度;45)根据最左边候选字符和字符平均宽度判断判断最左边字符是否完整,根据最右边候选字符和字符平均宽度判断判断最右边字符是否完整;46)若最左边字符为残缺字符,根据最左边候选字符中心位置距离所述汇总图片左边缘的相对位置确定所述汇总图片的左边界;若最右边字符为残缺字符,根据最右边候选字符中心位置距离所述汇总图片右边缘的相对位置确定所述汇总图片的右边界。5.根据权利要求1所述的一种单点文字识别方法,其特征在于,步骤2)中,当所述帧间相似度差异不小于给定的相似度差异阈值时,判定用户使用状态为滑动模式,将对所述图片序列拼接为所述汇总图片并直接进行字符识别和输出。6.一种单点文字识别装置,其特征在于,包括:使用状态判断模块,用于对用户的使用状态进行判断;所述使用状态判断模块包括:子图表征子模块,用于所述使用状态判断过程获取用户扫描的图...

【专利技术属性】
技术研发人员:刘青松梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1