一种基于编码解码技术的视觉内容导盲辅助系统及方法技术方案

技术编号:33481743 阅读:28 留言:0更新日期:2022-05-19 00:55
本发明专利技术公开了一种基于编码解码技术的视觉内容导盲辅助系统及方法,涉及计算机视觉领域,所述系统包括中央处理器模块、深度相机模块、语音播报装置模块、语音理解装置模块和电源模块;其中,中央处理器:用于控制本系统、视觉数据处理和信号的传递,在中央处理机上部署的有导盲系统的控制软件,包括:视觉内容解释单元、语音识别单元和道路规划单元;深度相机:用于对当前场景进行图像采集,生成RGB图像与深度图;语音播报装置:用于对中央处理器输出的语音信息进行理解,播放寻物或者对道路的规划情况;语音理解装置:用于采集用户的语音信息,传送给中央处理器;电源:用于给中央处理器供电。本发明专利技术能辅助盲人更好的生活,并提高生活质量。活质量。活质量。

【技术实现步骤摘要】
一种基于编码解码技术的视觉内容导盲辅助系统及方法


[0001]本专利技术涉及计算机视觉领域,具体涉及一种基于编码解码技术的视觉内容导盲辅助系统及方法。

技术介绍

[0002]近年来,随着人工智能的日益发展,深度学习在计算机视觉领域中的应用越来越广泛;譬如目标检测技术,图像识别技术,视频内容解释技术等等。这些技术都有了阶段性的发展并成功的在多项产品中引用。深度学习极大地促进了机器学习的发展,受到世界各国相关领域研究人员和高科技公司的重视。语音、图像和自然语言处理是深度学习算法应用最广泛的三个主要研究领域。语音识别领域:2011年微软公司推出基于深度神经网络的语音识别系统,这一成果将语音识别领域已有的技术框架完全改变;采用深度神经网络后,样本数据特征间相关性信息得以充分表示,将连续的特征信息结合构成高维特征,通过高维特征样本对深度神经网络模型进行训练;图像识别领域:2012年国内互联网巨头百度公司将相关最新技术成功应用到人脸识别和自然图像识别问题中,并推出相应的产品;现在的深度学习网络模型已经能够理解和识别一般的自然图像;深度学习模型不仅大幅提高了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于编码解码技术的视觉内容导盲辅助系统,其特征在于:包括中央处理器模块、深度相机、语音播报装置、语音理解装置和电源模块;利用边缘计算和云计算的联合架构对导盲辅助系统的实时性处理,采用分层分级的边缘节点方式处理图像数据;所述中央处理器模块:嵌入控制软件实现系统控制、视觉数据处理和信号的传递;包括:视觉内容解释单元、语音识别单元和场景模式切换单元;所述深度相机:对当前场景进行图像采集,生成RGB图像与深度图;所述语音播报装置:对中央处理器输出的语音信息进行理解,播放寻物或者对道路的规划情况;所述语音理解装置:采集用户的语音信息,传送给中央处理器模块;所述电源模块:为中央处理器模块供电。2.如权利要求1所述的基于编码解码技术的视觉内容导盲辅助系统,其特征在于:所述视觉内容解释单元:基于编码解码的神经网络对特定整理的数据集进行训练,实现视觉内容解释,通过视觉内容解释的信息对用户进行场景描述、避障、道路规划和寻找物体操作;所述语音识别单元模块:包括语音唤醒模块、关键词检索模块;在麦克风的采样点达到设定数量后对音频进行一次处理;在导盲辅助系统初始情况下,语音识别单元只有语音唤醒模块工作,关键词检索模块处于待机状态根据用户语音指令执行开关机操作及寻物操作;所述场景模式切换单元:包括场景判断模块,模式切换模块及特征处理和神经网络模块;根据当前采集的场景图像信息,判断场景类型,模式切换模块执行切换场景模式;在相机采取的图像中判断是室内场景或室外场景,通过语音返回用户当前的场景信息;模式切换模块根据场景信息切换对应的室内模式或室外模式。3.如权利要求2所述的基于编码解码技术的视觉内容导盲辅助系统,其特征在于:所述语音唤醒模块:负责对唤醒词的检测与识别,系统运行经由唤醒词启动;所述关键词检索模块:处理麦克风采集的信号,获得其语谱图,对语谱图进行编码,获得其信号编码;基于信号编码对音频信息中的关键词进行预测,输出关键词在音频中的概率向量,将各个关键词的概率值与提前预设的阈值进行比较,输出大于阈值的部分。4.如权利要求2所述的基于编码解码技术的视觉内容导盲辅助系统,其特征在于:所述场景判断模块:预先通过室内外数据集训练模型,利用室内外场景识别技术判断当前所处的场景是室内还是户外;通过提取所采集图像的全局特征和局部特征来精确的判断当前所处的场景信息;所述特征处理和神经网络模块:利用室内外的GNSS卫星信号个数、卫星高度角、信噪比、地磁场数据以及光照强度数据作为特征数据输入神经网络训练得到室内外场景识别模型;神经网络分为三层,输入层、隐藏层和输出层,相邻两层之间利用全连接形式连接;输入层的神经元个数取决于训练使用的特征个数,隐藏层神经元个数根据实际需要调整,输出层两个神经元代表室内和室外。5.如权利要求4所述的基于编码解码技术的视觉内容导盲辅助系统,其特征在于:所述
特征处理的室内外特征提取部分,包括卫星信号特征、光照强度特征和地磁强度特征。6.一种基于编码解码技术的视觉内容导盲方法,采用所述基于编码解码技术的视觉内容导盲辅助系统,实时向用户播报路况信息,通过云计算和边缘计算相结合来实现所述导盲辅助系统的运行和数据处理,采用分层分级的边缘节点方式处理所需数据,包括以下步骤:S1:用户通过预设的开机唤醒词对所述导盲辅助系统进行开机操作,S2:所述导盲辅助系统开机后,深度相机持续捕获周围场景的RGB图像和相连帧的图像,并将图像下放到模式切换单元中,基于编码解码技术对图像进行处理,根据预设的场景判断模型来判断用户当前所在场景,模式切换为室内或室外模式,若是室内模式跳转S3;若是室外模式跳转S4;在模式切换后对用户进行语音提醒;S3:启动关键词检索模块,处理麦克风采集的信号,获得其语谱图,对语谱图进行编码,获得其信号编码;基于信号编码对音频信息中的关键词进行预测,输出关键词在音频中的概率向量,将各个关键词的概率值与提前预设的阈值进行比较,输出大于阈值的部分;若长时间未检测到有效关键词,则进入待机模式,重启唤醒词模块;若检测到多个关键词,则启动语音指导模块,语音提醒用户每次只能语音输入一个关键词并要求重新输入,同时重启关键词检测模块;若检测到一个关键词,则根据所检测到的关键词启动相应的...

【专利技术属性】
技术研发人员:魏英姿刘王杰
申请(专利权)人:沈阳理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1