一种基于图像理解的盲人导航系统技术方案

技术编号:25990412 阅读:43 留言:0更新日期:2020-10-20 18:58
本发明专利技术提供的一种基于图像理解的盲人导航系统,包括:图像采集模块、图像特征提取模块、语音采集模块、语音处理模块、问题特征提取模块、特征融合模块、答案产生模块、答案输出模块;将图像采集模块采集的图像数据通过图像特征提取模块提取图像特征;将语音采集模块采集的用户问题语音数据通过语音处理模块将语音数据转换成文字数据后,通过问题特征提取模块对所述文字数据提取问题特征;通过特征融合模块将所述图像特征与所述问题特征进行特征融合;通过答案产生模块对融合特征进行分类,得到用户问题的答案;通过答案输出模块输出用户问题的答案。本发明专利技术智能程度高、实用性强,能实时的帮助视力障碍人群了解周围事物的信息,应用场景广阔。

【技术实现步骤摘要】
一种基于图像理解的盲人导航系统
本专利技术涉及图像理解和语音识别
,具体涉及一种基于图像理解的盲人导航系统。
技术介绍
在现实生活中,盲人等视力障碍人群由于身体条件的原因,生活质量受到视力的影响,导致对周围事物缺乏认知理解。因此图像理解(VisualQuestionAnswer,以下简称VQA)技术备受关注。VQA系统需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一张特定的图片,如果想要机器以自然语言来回答关于该图片的某一个特定问题,我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。VQA涉及到多方面的AI技术:细粒度识别,例如问题:“这位女士是白种人吗?”;物体识别,例如问题:“图中有几个香蕉?”;行为识别,例如问题:“这位女士在哭吗?”和对问题所包含文本的理解(NaturalLangungePossns,以下简称NLP)。现有技术中未见基于VQA系统与语音识别系统的盲人导航系统。
技术实现思路
基于此,本专利技术旨在提供一种基于图像理解的盲人导航系统,具有图像理解效果好、智能程度高、实用性强的优点,能够实时帮助视力障碍人群了解周围事物的信息。本专利技术提供一种基于图像理解的盲人导航系统,包括:图像采集模块,用于采集图像数据;图像特征提取模块,用于提取所述图像数据的图像特征;语音采集模块,用于采集用户问题的语音数据;语音处理模块,用于识别所述语音采集模块采集的语音数据,将问题语音数据转换成问题文字数据;问题特征提取模块,用于提取所述问题文字数据的问题特征;特征融合模块,用于融合所述图像特征与所述问题特征,得到融合特征;答案产生模块,用于将所述融合特征输入分类器中产生相应答案;答案输出模块,用于输出所述答案产生模块中的答案。优选地,所述图像特征提取模块采用VGG卷积神经网络提取所述图像数据的图像特征。因为VGG卷积神经网络具有结构简洁、层数更深、特征图更宽的优点,所以采用VGG卷积神经网络提取所述图像数据的图像特征,能够更容易地收敛到最优解。优选地,所述语音处理模块采用语音识别技术与自然语言处理技术,将语音数据转换成文字数据,具体包括:使用大量已标注的语音数据训练声学模型与语言模型,得到训练后的声学模型与语言模型;将采集的语音数据输入至训练后的声学模型与语言模型中进行识别,得到问题文字数据。优选地,所述问题特征提取模块采用LSTM神经网络按照所述问题文字数据中单词的输入顺序,提取问题中包含的问题特征。优选地,所述特征融合模块对所述图像特征与所述问题特征进行融合,之前还包括:对图像特征进行归一化处理,将所述图像特征与所述问题特征变换到同一个特征空间。优选地,所述特征融合模块采用双线性融合的方法对所述图像特征与所述问题特征进行融合,具体包括:将在同一位置上的所述归一化后的图像特征向量与问题特征向量进行向量外积计算,得到该位置上的矩阵;对所有位置上的矩阵进行池化操作,得到融合矩阵;对所述融合矩阵转换成一个向量,对所述向量进行矩归一化操作与L2归一化操作,得到融合特征。由于融合特征维数等于图像特征与问题特征的维数之际,所以采用双线性融合方法可以有效地降低计算量。优选地,所述答案产生模块采用多层感知机,对所述融合特征进行分类,得到用户问题的答案。优选地,所述图像采集模块,包括:摄像头。优选地,所述语音采集模块,包括:麦克风。优选地,所述答案输出模块,包括:播放器。从以上技术方案可见,与现有技术相比,本专利技术具有如下优点:本专利技术提供的一种基于图像理解的盲人导航系统,将图像采集模块采集的图像数据通过图像特征提取模块提取图像特征;将语音采集模块采集的用户问题语音数据通过语音处理模块将语音数据转换成文字数据后,通过问题特征提取模块对所述文字数据提取问题特征;通过特征融合模块将所述图像特征与所述问题特征进行特征融合;通过答案产生模块中对融合特征进行分类,得到用户问题的答案;通过答案输出模块输出用户问题的答案。本专利技术将机器视觉技术与自然语言处理技术相结合,具有图像理解效果好、智能程度高、实用性强的优点,能实时的帮助视力障碍人群了解周围事物的信息,应用场景广阔。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术提供的一种基于图像理解的盲人导航系统结构图;图2为本专利技术实施例提供的一种基于图像理解的盲人导航系统结合应用场景的实施方法流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本实施例提供了一种基于图像理解的盲人导航系统,请参考图1所示,包括:图像采集模块1,用于采集图像数据;图像特征提取模块2,用于提取所述图像数据的图像特征;语音采集模块3,用于采集用户问题的语音数据;语音处理模块4,用于识别所述语音采集模块采集的语音数据,将问题语音数据转换成问题文字数据;问题特征提取模块5,用于提取所述问题文字数据的问题特征;特征融合模块6,用于融合所述图像特征与所述问题特征,得到融合特征;答案产生模块7,用于将所述融合特征输入分类器中产生相应答案;答案输出模块8,用于输出所述答案产生模块中的答案。具体的,在本实施例中,所述图像特征提取模块采用VGG卷积神经网络(VGGNet)提取所述图像数据的图像特征。具体的,在本实施例中,所述语音处理模块采用语音识别技术与自然语言处理技术,将语音数据转换成文字数据,包括:使用大量已标注的语音数据训练声学模型与语言模型,得到训练后的声学模型与语言模型;将采集的语音数据输入至训练后的声学模型与语言模型中进行识别,得到问题文字数据。具体的,在本实施例中,所述问题特征提取模块采用LSTM神经网络按照所述问题文字数据中单词的输入顺序,提取问题中包含的问题特征。具体的,在本实施例中,所述特征融合模块对所述图像特征与所述问题特征进行融合,之前还包括:对图像特征进行归一化处理,将所述图像特征与所述问题特征变换到同一个特征空间。具体的,在本实施例中,所述特征融合模块采用双线性融合的方法(MultimodalCompactBilinear)对所述图像特征与所述问题特征进行融合,包括:将在同一位置上的所述归一化后的图像特征向量与问题特征向本文档来自技高网...

【技术保护点】
1.一种基于图像理解的盲人导航系统,其特征在于,包括:/n图像采集模块,用于采集图像数据;/n图像特征提取模块,用于提取所述图像数据的图像特征;/n语音采集模块,用于采集用户问题的语音数据;/n语音处理模块,用于识别所述语音采集模块采集的语音数据,将问题语音数据转换成问题文字数据;/n问题特征提取模块,用于提取所述问题文字数据的问题特征;/n特征融合模块,用于融合所述图像特征与所述问题特征,得到融合特征;/n答案产生模块,用于将所述融合特征输入分类器中产生相应答案;/n答案输出模块,用于输出所述答案产生模块中的答案。/n

【技术特征摘要】
1.一种基于图像理解的盲人导航系统,其特征在于,包括:
图像采集模块,用于采集图像数据;
图像特征提取模块,用于提取所述图像数据的图像特征;
语音采集模块,用于采集用户问题的语音数据;
语音处理模块,用于识别所述语音采集模块采集的语音数据,将问题语音数据转换成问题文字数据;
问题特征提取模块,用于提取所述问题文字数据的问题特征;
特征融合模块,用于融合所述图像特征与所述问题特征,得到融合特征;
答案产生模块,用于将所述融合特征输入分类器中产生相应答案;
答案输出模块,用于输出所述答案产生模块中的答案。


2.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,包括:
所述图像特征提取模块采用VGG卷积神经网络提取所述图像数据的图像特征。


3.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,所述语音处理模块采用语音识别技术与自然语言处理技术,将语音数据转换成文字数据,具体包括:
使用大量已标注的语音数据训练声学模型与语言模型,得到训练后的声学模型与语言模型;
将采集的语音数据输入至训练后的声学模型与语言模型中进行识别,得到问题文字数据。


4.根据权利要求1所述的一种基于图像理解的盲人导航系统,其特征在于,包括:
所述问题特征提取模块采用LSTM神经网络按照所述问题文字数据中单词的输...

【专利技术属性】
技术研发人员:廖宇威黄国恒程良伦
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1