一种盲用电脑及适配于盲用电脑的智能手机辅助控制方法技术

技术编号:24851864 阅读:41 留言:0更新日期:2020-07-10 19:06
本发明专利技术涉及一种盲用电脑及适配于盲用电脑的智能手机辅助控制方法,实时识别用户当前的手机使用界面,通过图像处理和机器学习的方法分析界面信息,对于当前界面中出现的具有明显图像特征或是文字特征的控件进行识别定位,并结合手势识别网络,以语音提示的方式对盲人用户进行操作引导,使盲人用户更好地使用智能手机。本发明专利技术检测识别快,在复杂环境以及目标多尺度的情况下识别精度高,普适性好;在应用不支持无障碍操作时,让用户对页面信息有较完整认识,引导点击,提供缓存操作,解决盲人用户操作智能手机时缺乏全局性了解的问题,极大改善盲人用户使用智能手机的操作体验,系统通过具有较高便携性的盲用电脑作为载体并实现。

【技术实现步骤摘要】
一种盲用电脑及适配于盲用电脑的智能手机辅助控制方法
本专利技术涉及电数字数据处理的
,特别涉及一种通过图像处理技术结合机器学习技术来辅助盲人用户使用智能手机盲用电脑及适配于盲用电脑的智能手机辅助控制方法。
技术介绍
随着多媒体技术的发展和移动通讯网络的应用普及,智能手机已经成为人们生活中不可或缺的电子设备,社会生活所需的社交、购物、订餐、查询等功能都需要依靠智能手机来完成。当下的智能手机一般都依靠触摸屏进行输入,通过图形界面的方式与用户进行交互,并且将许多传统的文字信息转换为更加简洁直观的图形图标来表示,增强了视觉效果,然而,这种依赖视觉的交互方式却给盲人的使用带来了不便。基于此,盲人用户普遍都会借助手机读屏软件来操作手机,但市面上的读屏软件在使用过程中仍存在着各式各样的瓶颈,比如语音播报没有重点、描述不清,或是弹窗广告无法识别、无法引导盲人用户关闭广告,再比如识别网页时对于无法识别的符号和图片会采取跳过处理,但盲人并不知道读屏软件采取了什么操作,这会造成盲人用户对于全文的理解性较差,还有无法提供选项被选中后的图形变化,盲人无法得知是否选中等,而对于不支持无障碍操作的应用,盲人的使用则会更加困难,这严重制约了盲人用户的使用体验。目前国内预估有至少600万视障人士在使用智能手机,因此,提供一种辅助盲人用户使用智能手机的方法和装置,对于方便盲人的日常生活,提供盲人用户的使用体验,有着十分积极的意义。申请号为201910021633.3的专利“一种适用于盲人操作手机的自动点击方法”中,对手机的读屏软件功能进行了扩展,增加了对于当前页面所有可识别控件的自动分析功能,但该专利需要盲人用户手动将各个使用模式和相应快捷键联系起来,虽然在部分常用功能上可以使盲人用户一键完成相应操作,但在非预设功能的手机上使用仍较为繁琐,也没有解决对于不支持无障碍操作的应用软件的使用问题。申请号为201910030373.6的专利“一种适用于盲人操作手机的全屏引导点击方法”中,提出了一种对于盲人用户进行屏幕点击的引导方法,通过截取当前手机屏幕并进行分析的方法,将图片中的文字识别出来并且模拟为安卓控件,解决了原本读屏软件中无法识别、选中图片的问题,但该方法实时性较差,也不具备智能分析、智能引导盲人用户的功能。
技术实现思路
本专利技术解决了现有技术中存在的问题,提供了一种优化的盲用电脑及适配于盲用电脑的智能手机辅助控制方法。本专利技术所采用的技术方案是,一种适配于盲用电脑的智能手机辅助控制方法,所述方法包括以下步骤:步骤1:启动盲用电脑,设置状态标识;初始化状态标识,进入待机模式;步骤2:启动盲用电脑的深度摄像头,获取任一帧视频图像;步骤3:检测所述视频图像中的焦点框;步骤4:利用训练完成的手势检测网络对手势特征点进行识别;步骤5:若检测到焦点框,则进行步骤7;若未检测到焦点框且识别到手势特征点,则进行步骤6;若未检测到焦点框且未识别到手势特征点,则进行步骤11;步骤6:对用户对应的手指处的文字进行识别,将识别结果以语音输出,进行步骤11;步骤7:判断当前使用界面与已缓存的若干帧图像间的关系,确认用户执行的操作;步骤8:实时监测焦点框的移动,判断当前视频图像对应的页面是否不支持无障碍操作或是否存在无法识别的图片,若是,执行步骤9,否则,进行步骤11;步骤9:将最新时间戳编号的图片通过页面信息检测识别算法,识别图片中的控件信息以及文字信息;步骤10:结合步骤7中用户执行的操作及步骤9中的控件信息以及文字信息,通过语音输出对用户进行提示和指导;步骤11:若收到结束信息,则程序结束,关闭盲用电脑,否则,返回步骤2。优选地,所述步骤3包括以下步骤:步骤3.1:将获得的视频图像复制一份,其中一份从RGB格式转换为HSV格式,筛得预设阈值内的像素点,其余像素点置为黑色;步骤3.2:将过滤后的图像顺次进行灰度化及二值化处理,对噪声进行对应的滤波处理;步骤3.3:对图像中未置为黑色的像素点设置最小外接矩形;采用交并比的方式比对图像中留下的轮廓的外接矩形及对应的轮廓的面积;若轮廓的外接矩形面积和轮廓的面积比值小于阈值则对当前外界矩形进行滤除;步骤3.4:若存在矩形的焦点框,则进行步骤3.6,否则进行下一步;步骤3.5:对于步骤3.3中寻找到的轮廓,对轮廓区域通过累计概率霍夫变换寻找二值化图像中的直线,并通过设定阈值的方式过滤掉长度小于阈值及不平行的直线;通过划线函数在新建的画布上将直线检测的结果连接起来,以连接后的图形重复步骤3.3;步骤3.6:保存焦点框的中心点坐标、宽、高,与复制的另一份视频图像一起,进行步骤4;否则提示用户对智能手机的显示画面进行移动,返回步骤3.1。优选地,所述步骤4包括以下步骤:步骤4.1:若当前帧的前一帧视频图像中已经识别到用户手掌,则以MedianFlow算法对用户手掌进行追踪并显示,进行步骤4.6,否则,进行下一步;步骤4.2:以当前帧视频图像构建图像金字塔,在若干种尺度下以训练样本中的多种手势模型与当前用户手势进行滑窗匹配,将检测结果通过非最大抑制的方法进行筛选;步骤4.3:通过支持向量机的方法,计算当前手势与滑窗匹配得到的手势模型间的匹配分值;步骤4.4:若匹配分值超过阈值,则匹配,进行下一步,否则,读入下一帧图像,返回步骤4.1;步骤4.5:基于匹配分值,得到用户当前的手势,并且初始化MedianFlow追踪算法;步骤4.6:以训练好的手势检测网络对得到的手势所在的包围盒进行特征检测,获得表征手指的特征点所在的位置,记录。优选地,所述步骤6中,对用户对应的手指处的文字进行识别包括以下步骤:步骤6.1:若用户停留在阅读位置超过预设时间,则对手指区域预设范围内的文字内容进行识别;若未检测到手指,则对当前图像全文识别;进行下一步;步骤6.2:基于步骤6.1,通过训练好的文字位置检测网络对文字内容进行检测,对检测结果腐蚀膨胀,通过轮廓检测的方式得到目标中所有文本行区域的定位框;步骤6.3:遍历所有的定位框;依次判断任意两个定位框之间是否相交,如果相交则计算其重叠区域,如果重叠区域面积与相交的两个定位框的最小面积的占比大于阈值,则将两个定位框合并;步骤6.4:滤除合并后仍小于阈值M的定位框,将定位框中的内容送交训练好的文字识别网络进行文字识别;步骤6.5:将文字识别结果保存为TXT格式的文件,并将文字送交语言单元,通过TTS技术将文本转换为语言文件,并通过语音模块播报。优选地,所述步骤7包括以下步骤:步骤7.1:利用ORB算法对当前视频图像进行检测,计算关键点和描述符;步骤7.2:使用FLANN算法,以关键点与之前保存的若干帧图像进行特征点匹配,获得匹配特征点,并提取最优配对;步骤7.3:对匹配特征点按照匹配度从高至低进行排序,利用RANSAC方本文档来自技高网
...

【技术保护点】
1.一种适配于盲用电脑的智能手机辅助控制方法,其特征在于:所述方法包括以下步骤:/n步骤1:启动盲用电脑,设置状态标识;初始化状态标识,进入待机模式;/n步骤2:启动盲用电脑的深度摄像头,获取任一帧视频图像;/n步骤3:检测所述视频图像中的焦点框;/n步骤4:利用训练完成的手势检测网络对手势特征点进行识别;/n步骤5:若检测到焦点框,则进行步骤7;若未检测到焦点框且识别到手势特征点,则进行步骤6;若未检测到焦点框且未识别到手势特征点,则进行步骤11;/n步骤6:对用户对应的手指处的文字进行识别,将识别结果以语音输出,进行步骤11;/n步骤7:判断当前使用界面与已缓存的若干帧图像间的关系,确认用户执行的操作;/n步骤8:实时监测焦点框的移动,判断当前视频图像对应的页面是否不支持无障碍操作或是否存在无法识别的图片,若是,执行步骤9,否则,进行步骤11;/n步骤9:将最新时间戳编号的图片通过页面信息检测识别算法,识别图片中的控件信息以及文字信息;/n步骤10:结合步骤7中用户执行的操作及步骤9中的控件信息以及文字信息,通过语音输出对用户进行提示和指导;/n步骤11:若收到结束信息,则程序结束,关闭盲用电脑,否则,返回步骤2。/n...

【技术特征摘要】
1.一种适配于盲用电脑的智能手机辅助控制方法,其特征在于:所述方法包括以下步骤:
步骤1:启动盲用电脑,设置状态标识;初始化状态标识,进入待机模式;
步骤2:启动盲用电脑的深度摄像头,获取任一帧视频图像;
步骤3:检测所述视频图像中的焦点框;
步骤4:利用训练完成的手势检测网络对手势特征点进行识别;
步骤5:若检测到焦点框,则进行步骤7;若未检测到焦点框且识别到手势特征点,则进行步骤6;若未检测到焦点框且未识别到手势特征点,则进行步骤11;
步骤6:对用户对应的手指处的文字进行识别,将识别结果以语音输出,进行步骤11;
步骤7:判断当前使用界面与已缓存的若干帧图像间的关系,确认用户执行的操作;
步骤8:实时监测焦点框的移动,判断当前视频图像对应的页面是否不支持无障碍操作或是否存在无法识别的图片,若是,执行步骤9,否则,进行步骤11;
步骤9:将最新时间戳编号的图片通过页面信息检测识别算法,识别图片中的控件信息以及文字信息;
步骤10:结合步骤7中用户执行的操作及步骤9中的控件信息以及文字信息,通过语音输出对用户进行提示和指导;
步骤11:若收到结束信息,则程序结束,关闭盲用电脑,否则,返回步骤2。


2.根据权利要求1所述的一种适配于盲用电脑的智能手机辅助控制方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1:将获得的视频图像复制一份,其中一份从RGB格式转换为HSV格式,筛得预设阈值内的像素点,其余像素点置为黑色;
步骤3.2:将过滤后的图像顺次进行灰度化及二值化处理,对噪声进行对应的滤波处理;
步骤3.3:对图像中未置为黑色的像素点设置最小外接矩形;采用交并比的方式比对图像中留下的轮廓的外接矩形及对应的轮廓的面积;若轮廓的外接矩形面积和轮廓的面积比值小于阈值则对当前外界矩形进行滤除;
步骤3.4:若存在矩形的焦点框,则进行步骤3.6,否则进行下一步;
步骤3.5:对于步骤3.3中寻找到的轮廓,对轮廓区域通过累计概率霍夫变换寻找二值化图像中的直线,并通过设定阈值的方式过滤掉长度小于阈值及不平行的直线;通过划线函数在新建的画布上将直线检测的结果连接起来,以连接后的图形重复步骤3.3;
步骤3.6:保存焦点框的中心点坐标、宽、高,与复制的另一份视频图像一起,进行步骤4;否则提示用户对智能手机的显示画面进行移动,返回步骤3.1。


3.根据权利要求1所述的一种适配于盲用电脑的智能手机辅助控制方法,其特征在于:所述步骤4包括以下步骤:
步骤4.1:若当前帧的前一帧视频图像中已经识别到用户手掌,则以MedianFlow算法对用户手掌进行追踪并显示,进行步骤4.6,否则,进行下一步;
步骤4.2:以当前帧视频图像构建图像金字塔,在若干种尺度下以训练样本中的多种手势模型与当前用户手势进行滑窗匹配,将检测结果通过非最大抑制的方法进行筛选;
步骤4.3:通过支持向量机的方法,计算当前手势与滑窗匹配得到的手势模型间的匹配分值;
步骤4.4:若匹配分值超过阈值,则匹配,进行下一步,否则,读入下一帧图像,返回步骤4.1;
步骤4.5:基于匹配分值,得到用户当前的手势,并且初始化MedianFlow追踪算法;
步骤4.6:以训练好的手势检测网络对得到的手势所在的包围盒进行特征检测,获得表征手指的特征点所在的位置,记录。


4.根据权利要求1所述的一种适配于盲用电脑的智能手机辅助控制方法,其特征在于:所述步骤6中,对用户对应的手指处的文字进行识别包括以下步骤:
步骤6.1:若用户停留在阅读位置超过预设时间,则对手指区域预设范围内的文字内容进行识别;若未检测到手指,则对当前图像全文识别;进行下一步;
步骤6.2:基于步骤6.1,通过训练好的文字位置检测网络对文字内容进行检测,对检测结果腐蚀膨胀,通过轮廓检测的方式得到目标中所有文本行区域的定位框;
步骤6.3:遍历所有的定位框;依次判断任意两个定位框之间是否相交,如果相交则计算其重叠区域,如果重叠区域面积与相交的两个定位框的最小面积的占比大于阈值,则将两个定位框合并;步骤6.4:滤除合并后仍小于阈值M的定位框,将定位框中的内容送交训练好的文字识别网络进行文字识别;
步骤6.5:将文字识别结果保存为TXT格式的文件,并将文字送交语言单元,通过TTS技术将文本转换为语言文件,并通过语音模块播报。


5.根据权利要求1所述的一种适配于盲用电脑的智能手机辅助控制方法,其特征在于:所述步骤7包括以下步骤:
步骤7.1:利用ORB算法对当前视频图像进行检测,计算关键点和描述符;
步骤7.2:使用FLANN算法,以关键点与之前保存的若干帧图像进行特征点匹配,获得匹配特征点,并提取最优配对;
步骤7.3:对匹配特征点按照匹配度从高至低进行排序,利用RANSAC方法去除误匹配;
步骤7.4:以处理后的匹配点数量与位置信息,判断当前...

【专利技术属性】
技术研发人员:郑雅羽石俊山林斯霞朱威
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1