一种面向视障人群的场景文字交互式理解系统技术方案

技术编号:32644496 阅读:27 留言:0更新日期:2022-03-12 18:23
本发明专利技术公开了一种面向视障人群的场景文字交互式理解系统,包括手机移动端APP和后端视觉交互计算处理平台,手机移动端APP包括语音唤醒组件、视觉场景拍摄组件、语音问题采集组件、语音转换文字组件、逻辑判断组件、数据传输收发组件和文字合成语音组件;后端视觉交互处理计算平台包括输入预处理模块和多头注意力机制模型。本发明专利技术能够实现针对不同场景图片中的文字信息的识别,场景信息由用户自主采集,环境适应性和可拓展性高,且对于场景中文字识别的灵敏度和准确性高。可以根据用户问题进行动态回答,更具实用性和实时性;能够安装在手机移动端可以使用语音进行信息交互上,对用户来说,使用方便,耗费成本较低,简易上手。简易上手。简易上手。

【技术实现步骤摘要】
一种面向视障人群的场景文字交互式理解系统


[0001]本专利技术属于计算机视觉
和互联网
,尤其涉及到一种基于视觉描述技术和视觉问答技术,通过语音交互辅助视障人群获取图像中文字信息的方法。

技术介绍

[0002]根据卫生部统计,中国的盲人达1400万之多,数量列居世界之首,且包括盲人在内的视障人群规模还在不断地扩大。视觉障碍人群日常生活的不便利性和危险性使得视障人群对于能辅助其正常生活的设施产生了较大的需求,各类视障辅助产品也应运而生。就文字辅助识别方面而言,现有产品大都无法实现针对场景图片所含文字的智能识别,且无法以语音形式和视障用户端进行信息交互,不能满足视障人群对图像中文字信息获取感知的需求。因此,如何识别照片等各类场景图像中文字信息并实现与用户语音交互,成为信息无障碍化建设中亟待解决的问题。
[0003]当前视觉问答(VQA)和视觉描述(VCap)领域技术发展日趋成熟,已经能够实现了很好的效果。但是传统的视觉问答和视觉描述的局限性在于概要性的描述,无法对图像中的具体文字进行描述,图像文字信息描述效果较差。因此Text本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向视障人群的场景文字交互式理解系统,其特征在于,包括手机移动端APP和后端视觉交互计算处理平台,以下简称前端和后端;所述的手机移动端APP包括语音唤醒组件、视觉场景拍摄组件、语音问题采集组件、语音转换文字组件、逻辑判断组件、数据传输收发组件和文字合成语音组件;所述的语音唤醒组件,针对视障人群设计,简化手机移动端APP的使用,通过语音唤醒组件完成APP的语音唤醒,无需手动点击APP图标进行启动;所述视觉场景拍摄组件,由用户通过手机自带摄像头获取周围场景照片即图像信息;考虑到用户的特殊性,为方便视障人群使用,视觉场景拍摄组件对拍摄界面进行简化设计,用户点击屏幕任意处均可触发拍摄功能;所述的语音问题采集组件,通过手机麦克风收集用户针对所拍摄照片进行口头提问,采集语音信息;所述的语音转换文字组件,用于对所采集的语音信息进行转换,形成对应的文字信息;所述的逻辑判断组件,根据语音转换文字组件所得的文字信息,判断区分视觉问答和图像描述两个功能;其通过附加一个任务区分标志实现:如果用户要求视觉问答功能则任务区分标志置1,如果用户要求图像描述功能则任务区分标志置0;任务区分标志附加在语音转换文字组件所得的文字信息的最前端;所述的数据传输收发组件,用于负责前后端之间信息交流工作,包括将视觉拍摄组件获取的图像信息和逻辑判断组件附加任务区分标志处理后的文字信息发送至后端,同时接收后端视觉交互平台处理完成后发送回来的文字信息回复;所述的文字合成语音组件,将从后端所接收的文字信息回复转换成对应的语音信息,并通过手机扩音器播报传达给用户;所述的后端视觉交互处理计算平台包括输入预处理模块和多头注意力机制模型,用于对数据传输收发组件发送的图像信息和文字信息进行分析,得到对应的文字信息结果。2.根据权利要求1所述的一种面向视障人群的场景文字交互式理解系统,其特征在于,所述的语音转换文字组件和文字合成语音组件采用现有稳定的科大讯飞的语音识别SDK的API调用,实现语音信息转换成文字信息。3.根据权利要求2所述的一种面向视障人群的场景文字交互式理解系统,其特征在于,所述的输入预处理模块,用于对数据传输收发组件上传的数据进行预处理,包括三个方面:图像文字特征提取、图像特征提取和文字特征提取;(1)图像文字特征提取针对前端传输的图像信息中包含的文字特征提取,采用成熟且完整度高的OCR技术(字符识别技术)进行提取;(2)图像特征提取针对前端传输的图像信息中包含的物体特征提取,使用FasterR

CNN目标检测模型提取物体的视觉特征以及位置特征;(3)文字特征提取针对前端传输的问题文字信息,采用的是预训练好的BERT模型进行编码得到文字特征;通过文字信息最前端的任务区分标志的不同,实现针对TextVQA和TextCap任务进行自适应调整:如果任务区分标志为1,则说明是视觉问答任务,进行问题特征输入;如果任务区
分标志为0,则说明是图像描述任务,不需要进行问题特征输入,将文字特征置0处理即可。4.根据权利要求3所述的一种面向视障人群的场景文字交互式理解系统,其特征在于,所述的多头注意力机制模型,用于对输入的特征进行交叉学习,迭代输出得到对应的文字信息结果;多头注意力机制模型基于现有的M4C模型和M4C

Captioner模型,结合多任务联合学习机制进行创新,将TextVQA和TextCap任务进行融合,针对多头注意力机制模型的输入进行优化设计,降低模型在实际运行阶段的计算复杂度,以满足系统实时性的需求;多头注意力...

【专利技术属性】
技术研发人员:余宙王璐瑶梁崴黄逸飞陈晨
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1