【技术实现步骤摘要】
识字卡片、基于图像识别的桌面场景的STR方法及装置
本专利技术涉及儿童教育辅助装置
,具体涉及一种识字卡片、基于图像识别的桌面场景的STR方法及装置。
技术介绍
在过去几十年以来,人们一直在研究在自然场景中出现的字符符号。识字卡产生的字符属于其中一个种类,根据其特点,用户在使用的过程随机角度、随机位置摆放。在考虑这类问题的解决方案时,除了实时需求外,需要算法对字符角度有一定支持。在幼儿教育当中,掌握一定数量的文字对后续学习至关重要,而识字卡则是幼儿识字常见的辅助工具,在桌面场景(利用机器学习方法识别桌面图像,通过语音或视频的方式教育儿童)进行儿童识字教育是一种较好的教育方式。传统的机器学习方法分为检测和识别两步,检测则有MSER连通区域分析定位出字符位置,对文字区域进行矫正,然后通过分类器类似SVM这种进行分类识别。基于深度学习的检测方法无法直接实时运行在普通的智能设备上,一种常见的部署方法是云端部署深度学习模型识别,前端传输视频流回去识别,这种方法需要一定的网络环境要求,而部署成本也比较高;基于传统的识别方法 ...
【技术保护点】
1.一种基于图像识别的桌面场景的STR方法,其特征在于包括:/n视频获取步骤:对输入视频流进行透视变换,转换为正向俯视视角;/n静态帧掩码检测步骤:对每一帧图像检测进行差分检测,获取变化区域;/n直线检测步骤:对所述变化区域使用LSD方法进行检测直线,获取最终候选矩形区域Rects,包括:由外框线段组成的矩形和由内框线段组成的矩形;/n矩形检测步骤:对最终候选矩形区域Rects进行内框检测,得到识别需要的矩形区域Rects’;/n方向矫正步骤:根据LOGO位置,矫正每个识别需要的矩形区域Rects’的方向;/n识别步骤:对识别需要的矩形区域Rects’进行分类识别,提取每个 ...
【技术特征摘要】
1.一种基于图像识别的桌面场景的STR方法,其特征在于包括:
视频获取步骤:对输入视频流进行透视变换,转换为正向俯视视角;
静态帧掩码检测步骤:对每一帧图像检测进行差分检测,获取变化区域;
直线检测步骤:对所述变化区域使用LSD方法进行检测直线,获取最终候选矩形区域Rects,包括:由外框线段组成的矩形和由内框线段组成的矩形;
矩形检测步骤:对最终候选矩形区域Rects进行内框检测,得到识别需要的矩形区域Rects’;
方向矫正步骤:根据LOGO位置,矫正每个识别需要的矩形区域Rects’的方向;
识别步骤:对识别需要的矩形区域Rects’进行分类识别,提取每个识别需要的矩形区域Rects’的HOG特征,输入预先训练的SVM分类,对应映射到最后的字卡信息,得到识别结果。
2.如权利要求1所述的方法,其特征在于,还包括:在识别步骤后,对每个识别结果进行对应的文字灰度图多尺度模版检测,抛弃结果超过阈值的结果。
3.如权利要求1所述的方法,其特征在于,所述直线检测步骤包括:
获取直线集Lines;
遍历所有直线,删去所有过短直线,在直线距离低于一个阈值并截距差值在一定范围内情况下合并为新的直线;
计算剩余直线Lines’之间角度和距离,以Line-pairs记录所有直线对之间的距离、夹角等信息;
遍历Line-pairs内所有平衡关系的直线对,过滤距离低于阈值的直线、并平衡直线投影重叠指标低于阈值的直线对;
对上述满足条件的Line-pairs’按照直线投影重叠指标排序;
对Line-pairs’两个平衡直线对存在垂直关系计算组成矩形的面积、交点,按照识字卡在图像的成像大小范围过滤,获取候选矩形,对当中重叠面积比例大于阈值的进行合并候选矩形,得到最终候选矩形区域Rects。
4.如权利要求1所述的方法,其特征在于,所述矩形检测步骤包括:
对最终候选矩形区域Rects进行内框检测,通过扩大每个矩形区域,获取小块灰度图像进行边沿轮廓检测;
再对边沿计算轮廓多边形拟合,只计算当中面积大于一定阈值的最小矩形作为识别需要的识别需要的矩形区域Rects’。
5.如权利要求1所述的方法,其...
【专利技术属性】
技术研发人员:陈杰宇,朱松,寇婷婷,武庆三,潘鑫,
申请(专利权)人:深圳市玩瞳科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。