一种基于图像理解的盲人导航系统技术方案

技术编号：25990412 阅读：43 留言：0更新日期：2020-10-20 18:58

本发明专利技术提供的一种基于图像理解的盲人导航系统，包括：图像采集模块、图像特征提取模块、语音采集模块、语音处理模块、问题特征提取模块、特征融合模块、答案产生模块、答案输出模块；将图像采集模块采集的图像数据通过图像特征提取模块提取图像特征；将语音采集模块采集的用户问题语音数据通过语音处理模块将语音数据转换成文字数据后，通过问题特征提取模块对所述文字数据提取问题特征；通过特征融合模块将所述图像特征与所述问题特征进行特征融合；通过答案产生模块对融合特征进行分类，得到用户问题的答案；通过答案输出模块输出用户问题的答案。本发明专利技术智能程度高、实用性强，能实时的帮助视力障碍人群了解周围事物的信息，应用场景广阔。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图像理解的盲人导航系统
本专利技术涉及图像理解和语音识别
，具体涉及一种基于图像理解的盲人导航系统。
技术介绍
在现实生活中，盲人等视力障碍人群由于身体条件的原因，生活质量受到视力的影响，导致对周围事物缺乏认知理解。因此图像理解(VisualQuestionAnswer，以下简称VQA)技术备受关注。VQA系统需要将图片和问题作为输入，结合这两部分信息，产生一条人类语言作为输出。针对一张特定的图片，如果想要机器以自然语言来回答关于该图片的某一个特定问题，我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。VQA涉及到多方面的AI技术：细粒度识别，例如问题：“这位女士是白种人吗？”；物体识别，例如问题：“图中有几个香蕉？”；行为识别，例如问题：“这位女士在哭吗？”和对问题所包含文本的理解(NaturalLangungePossns，以下简称NLP)。现有技术中未见基于VQA系统与语音识别系统的盲人导航系统。
技术实现思路
基于此，本专利技术旨在提供一种基于图像理解的盲人导航系统，具有图像理解效果好、智能程度高、实用性强的优点，能够实时帮助视力障碍人群了解周围事物的信息。本专利技术提供一种基于图像理解的盲人导航系统，包括：图像采集模块，用于采集图像数据；图像特征提取模块，用于提取所述图像数据的图像特征；语音采集模块，用于采集用户问题的语音数据；语音处理模块，用于识别所述语音采集模块采集的语音数据，将问题语...

【技术保护点】
1.一种基于图像理解的盲人导航系统，其特征在于，包括：/n图像采集模块，用于采集图像数据；/n图像特征提取模块，用于提取所述图像数据的图像特征；/n语音采集模块，用于采集用户问题的语音数据；/n语音处理模块，用于识别所述语音采集模块采集的语音数据，将问题语音数据转换成问题文字数据；/n问题特征提取模块，用于提取所述问题文字数据的问题特征；/n特征融合模块，用于融合所述图像特征与所述问题特征，得到融合特征；/n答案产生模块，用于将所述融合特征输入分类器中产生相应答案；/n答案输出模块，用于输出所述答案产生模块中的答案。/n

【技术特征摘要】
1.一种基于图像理解的盲人导航系统，其特征在于，包括：
图像采集模块，用于采集图像数据；
图像特征提取模块，用于提取所述图像数据的图像特征；
语音采集模块，用于采集用户问题的语音数据；
语音处理模块，用于识别所述语音采集模块采集的语音数据，将问题语音数据转换成问题文字数据；
问题特征提取模块，用于提取所述问题文字数据的问题特征；
特征融合模块，用于融合所述图像特征与所述问题特征，得到融合特征；
答案产生模块，用于将所述融合特征输入分类器中产生相应答案；
答案输出模块，用于输出所述答案产生模块中的答案。

2.根据权利要求1所述的一种基于图像理解的盲人导航系统，其特征在于，包括：
所述图像特征提取模块采用VGG卷积神经网络提取所述图像数据的图像特征。

3.根据权利要求1所述的一种基于图像理解的盲人导航系统，其特征在于，所述语音处理模块采用语音识别技术与自然语言处理技术，将语音数据转换成文字数据，具体包括：
使用大量已标注的语音数据训练声学模型与语言模型，得到训练后的声学模型与语言模型；
将采集的语音数据输入至训练后的声学模型与语言模型中进行识别，得到问题文字数据。

4.根据权利要求1所述的一种基于图像理解的盲人导航系统，其特征在于，包括：
所述问题特征提取模块采用LSTM神经网络按照所述问题文字数据中单词的输...

【专利技术属性】
技术研发人员：廖宇威，黄国恒，程良伦，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人