当前位置: 首页 > 专利查询>清华大学专利>正文

一种视觉辅助方法、系统和装置制造方法及图纸

技术编号:28839506 阅读:49 留言:0更新日期:2021-06-11 23:37
本申请实施例提供了一种视觉辅助方法、系统和装置,该方法包括:采集所在环境的图像数据;根据所述图像数据进行核心计算;所述核心计算包括以下任意一种或多种:距离检测、物体检测、处所检测和场景描述生成;根据核心计算的计算结果确定对被辅助者的辅助信息;将所述辅助信息转化为交互语句,并将所述交互语句以语音形式传递给所述被辅助者。通过该实施例方案,提升了用户出行过程中的安全系数、安全感以及对所处空间的认知。

【技术实现步骤摘要】
一种视觉辅助方法、系统和装置
本文涉及视觉辅助技术,尤指一种视觉辅助方法、系统和装置。
技术介绍
人工智能是一种利用现代计算机的强大计算功能,通过大量的数据学习,使得计算机能够像人一样完成任务的技术。其中的深度学习是利用深度神经网络,即众多包含线性变换和简单非线性变换的神经元,使用大量的数据和与之对应的标签,通过反向传播调整线性变换的参数,从而使得计算机学得数据与其标签之间的规律的一种技术。该技术在计算机视觉、自然语言处理等方向有着重要的应用。边缘计算是5G时代新兴的一种计算方式,在物联网等设施中有着重要的应用。其包括产生数据并接收计算结果的终端、离终端较近并负责大部分计算的边缘服务器、离终端较远且与边缘服务器进行数据交换的云服务器。其主要数据流为,将大流量的数据从终端发送至边缘服务器,边缘服务器进行运算之后将相对少了很多的数据传送给云服务器,运算结果返回边缘服务器再返回终端。其减少了大流量数据的远距离传输,十分符合5G技术的底层特点。现代的视觉辅助技术多以雷达、双目摄像头等为输入硬件,价格都较为昂贵,且购买途径较少。此外少有的利用人工智能技术的系统也大多采用单片机进行计算,效率极低。大部分视觉辅助技术并未做深入交互研究,仅仅将冷冰冰的数据通过语音汇报给用户,增大了用户的脑力负荷,降低了技术的实时性与简便性。这些设备无法进行大规模普及推广,导致大部分盲人出行的主要辅助工具还是盲杖。盲杖效率较低且需要人主动触地探索,造成了出行的诸多不便。
技术实现思路
本申请实施例提供了一种视觉辅助方法、系统和装置,能够提升用户出行过程中的安全系数、安全感以及对所处空间的认知。本申请实施例提供了一种视觉辅助方法,可以包括:采集所在环境的图像数据;根据所述图像数据进行核心计算;所述核心计算包括以下任意一种或多种:距离检测、物体检测、处所检测和场景描述生成;根据核心计算的计算结果确定对被辅助者的辅助信息;将所述辅助信息转化为交互语句,并将所述交互语句以语音形式传递给所述被辅助者。在本申请的示例性实施例中,所述图像数据可以包括:图片和/或视频;所述根据所述图像数据进行核心计算可以包括:将采集的图片输入预先训练好的第一神经网络,通过所述第一神经网络确定所述图片中的特征物,并测量所述特征物与所述图片的拍摄装置之间的深度,实现所述距离检测;将采集的图片输入预先训练好的第二神经网络,通过所述第二神经网络检测所述图片中是否存在物体以及物体类型,并测量所述物体的位置,实现所述物体检测;所述物体的位置包括所述物体相对于所述被辅助者的方位;将采集的图片输入预先训练好的第三神经网络,通过所述第三神经网络检测所述图片中的场景,并预测出n种可能的所处场景,n为正整数,实现所述处所检测;将采集的视频输入预先训练好的第四神经网络,通过所述第四神经网络生成所述视频中的事件的语音描述信息,实现所述场景描述生成。在本申请的示例性实施例中,所述第一神经网络可以包括SeNet-154神经网络,并以NYU-v2数据集作为训练数据集;所述第二神经网络可以包括Darkent-v3神经网络,并基于yolo-v3算法实现物体检测;所述第三神经网络可以包括ResNet-152神经网络,并以Place365数据集作为训练数据集;所述第四神经网络可以包括:编码器ResNet-152和解码器SA-LSTM。在本申请的示例性实施例中,所述方法还可以包括:所述图像数据可以包括图片;在根据所述图像数据进行核心计算之前,对所述图片进行预处理;所述对所述图片进行预处理可以包括:从采集的全部图片中筛选出合格图片,并剔除不合格图片;以及,将所述合格图片切分成多个区域,其中相邻区域之间具有重叠部分,使得其适应神经网络的输入,提高实别精度。所述不合格图片的筛选,包括利用计算机视觉算法进行图片熵计算、模糊检测,以及利用设备姿态数据筛选模糊图片。在本申请的示例性实施例中,所述辅助信息可以包括以下任意一种或多种:距离报警、物体提示、处所变更提示、场景描述以及主动引导;其中,所述距离报警,用于在被辅助者与检测到的物体之间的距离小于或等于预设的距离阈值时向所述被辅助者发出提醒;所述物体提示,用于向所述被辅助者描述检测到的物体对应的物体信息;所述物体信息可以包括:名称和/或空间坐标;所述处所变更提示,用于提示所述被辅助者当前处所发生变更,并向所述被辅助者提供多个可能的处所;所述场景描述,用于对采集的视频中的动态场景进行语言描述;所述主动引导,用于根据所述距离检测中所获得的物体深度信息进行障碍物判断,并以语音形式向所述被辅助者提供道路方向引导。在本申请的示例性实施例中,所述根据核心计算的计算结果确定对被辅助者的辅助信息,可以包括:将所述距离检测所检测出的深度信息确定为所述图片上的任意的第一物体与所述被辅助者之间的第一距离,将所述第一距离与所述距离阈值进行比较,当所述第一距离小于或等于所述距离阈值时,生成所述距离报警;根据所述物体检测中检测到的物体类型确定所述第一物体的第一名称;根据所述物体检测中检测到的物体边界信息确定所述第一物体的第一高度;根据所述第一名称确定第一物体是否能够悬空;根据所述第一距离、所述第一高度以及所述物体检测中检测到的所述第一物体相对于所述被辅助者的第一方位确定所述第一物体的第一空间坐标;根据所述第一物体是否能够悬空的信息修正所述第一物体的第一空间坐标;根据所述第一名称、修正后的第一空间坐标和所述第一物体的悬空状态生成所述物体提示的提示内容;调取根据所述处所检测确定出的上一次预测的n种可能的所处场景,并将当前处所检测过程中获取的第一处所信息与所述上一次预测的n种可能的所处场景的第二处所信息相比较,当所述第一处所信息与所述第二处所信息的差异率大于或等于预设的差异率阈值时,确定当前处所发生变更,并根据所述第一处所信息重新预测出n种可能的所处场景;根据当前处所发生变更的信息以及重新预测出的n种可能的所处场景生成所述处所变更提示的提示内容;调取所述场景描述生成计算中所获取的语音描述信息,将所述语音描述信息作为所述场景描述的描述内容;根据所述距离检测中检测到的深度信息判断所述被辅助者的周围是否具有深度大于或等于预设的深度阈值的连续段,当存在所述连续段时,将所述连续段确定为可行路线,作为所述主动引导的引导方向。在本申请的示例性实施例中,所述空间坐标所在坐标系可以以所述被辅助者的重心为坐标原点,所述坐标系可以包括:深度坐标、横坐标和纵坐标;其中,以水平方向上所述被辅助者面对的方向为所述深度坐标的正方向,以水平方向上所述被辅助者左手侧所在的方向为横坐标的正方向,以竖直方向上竖直向上的方向作为纵坐标的正方向;所述横坐标被分成a段,所述纵坐标被分成b段,所述竖直坐标被分为c段,每一分段都具有相应的自然语言名称;在所述坐标系的水平面上,所述被辅助者本文档来自技高网...

【技术保护点】
1.一种视觉辅助方法,其特征在于,包括:/n采集所在环境的图像数据;/n根据所述图像数据进行核心计算;所述核心计算包括以下任意一种或多种:距离检测、物体检测、处所检测和场景描述生成;/n根据核心计算的计算结果确定对被辅助者的辅助信息;/n将所述辅助信息转化为交互语句,并将所述交互语句以语音形式传递给所述被辅助者。/n

【技术特征摘要】
1.一种视觉辅助方法,其特征在于,包括:
采集所在环境的图像数据;
根据所述图像数据进行核心计算;所述核心计算包括以下任意一种或多种:距离检测、物体检测、处所检测和场景描述生成;
根据核心计算的计算结果确定对被辅助者的辅助信息;
将所述辅助信息转化为交互语句,并将所述交互语句以语音形式传递给所述被辅助者。


2.根据权利要求1所述的视觉辅助方法,其特征在于,所述图像数据包括:图片和/或视频;所述根据所述图像数据进行核心计算包括:
将采集的图片输入预先训练好的第一神经网络,通过所述第一神经网络确定所述图片中的特征物,并测量所述特征物与所述图片的拍摄装置之间的深度,实现所述距离检测;
将采集的图片输入预先训练好的第二神经网络,通过所述第二神经网络检测所述图片中是否存在物体以及物体类型,并测量所述物体的位置,实现所述物体检测;所述物体的位置包括所述物体相对于所述被辅助者的方位;
将采集的图片输入预先训练好的第三神经网络,通过所述第三神经网络检测所述图片中的场景,并预测出n种可能的所处场景,n为正整数,实现所述处所检测;
将采集的视频输入预先训练好的第四神经网络,通过所述第四神经网络生成所述视频中的事件的语音描述信息,实现所述场景描述生成。


3.根据权利要求2所述的视觉辅助方法,其特征在于,
所述第一神经网络包括SeNet-154神经网络,并以NYU-v2数据集作为训练数据集;
所述第二神经网络包括Darknet-v3神经网络,基于yolo-v3算法实现物体检测;
所述第三神经网络包括ResNet-152神经网络,并以Place365数据集作为训练数据集;
所述第四神经网络包括:编码器ResNet-152和解码器SA-LSTM。


4.根据权利要求1-3任意一项所述的视觉辅助方法,其特征在于,所述方法还包括:所述图像数据包括图片;在根据所述图像数据进行核心计算之前,对所述图片进行预处理;
所述对所述图片进行预处理包括:
从采集的全部图片中筛选出合格图片,并剔除不合格图片;以及,
将所述合格图片切分成多个区域,其中相邻区域之间具有重叠部分。


5.根据权利要求2或3所述的视觉辅助方法,其特征在于,所述辅助信息包括以下任意一种或多种:距离报警、物体提示、处所变更提示、场景描述以及主动引导;
其中,所述距离报警,用于在被辅助者与检测到的物体之间的距离小于或等于预设的距离阈值时向所述被辅助者发出提醒;
所述物体提示,用于向所述被辅助者描述检测到的物体对应的物体信息;所述物体信息包括:名称和/或空间坐标;
所述处所变更提示,用于提示所述被辅助者当前处所发生变更,并向所述被辅助者提供多个可能的处所;
所述场景描述,用于对采集的视频中的动态场景进行语言描述;
所述主动引导,用于根据所述距离检测中所获得的物体深度信息进行障碍物判断,并以语音形式向所述被辅助者提供道路方向引导。


6.根据权利要求5所述的视觉辅助方法,其特征在于,所述根据核心计算的计算结果确定对被辅助者的辅助信息,包括:
将所述距离检测所检测出的深度信息确定为所述图片上的任意的第一物体与所述被辅助者之间的第一距离,将所述第一距离与所述距离阈值进行比较,当所述第一距离小于或等于所述距离阈值时,生成所述距离报警;
根据所述物体检测中检测到的物体类型确定所述第一物体的第一名称;根据所述物体检测中检测到的物体边界信息确定所述第一物体的第一高度;根据所述第一名称确定第一物体是否能够悬空;根据所述第一距离、所述第一高度以及所述物体检测中检测到的所述第一物体相对于所述被辅助者的第一方位确定所述第一物体的第一空间坐标;根据所述第一物体是否能够悬空的信息修正所述第一物体的第一空间坐标;根据所述第一名称、修正后的第一空间坐标和所述第一物体的悬空状态生成所述物体提示的提示内容;
调取根据所述处所检测确定出的上一次预测的n种可能的所处场景,并将当前处所检测过程中获取的第一处所信息与所述上一次预测的n种可能的所处场景的第二处所信息相比较,当所述第一处所信息与所述第二处所信息的差异率大于或等于预设的差异率阈值时,确定当前处所发生变更,并根据所述第一处所信息重新预测出n种可能的所处场景;根据当前处所发生变更的信息以及重新预测出的n种可能的所处场景生成所述处所变更提示的提示内容;
调取所述场景描述生成计算中所获取的语音描述信息,将所述语音描述信息作为所述场景描述的描述内容;
根据所述距离检测中检测到的深度信息判断所述被辅助者的周围是否具有深度大于或等于预设的深度阈值的连续段,当存在所述连续段时,将所述连续段确定为可...

【专利技术属性】
技术研发人员:饶培伦罗怿鸣
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1