基于AI视觉下的听写交互方法、系统、装置制造方法及图纸

技术编号:26506278 阅读:29 留言:0更新日期:2020-11-27 15:34
本发明专利技术提供了一种基于AI视觉下的听写交互方法、系统、装置,方法包括:S100:实时获取采集的目标图像;S200:构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别目标图像中的动作信息和文字信息;S300:根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;S400:控制播放听写任务的听写内容;S500:控制显示听写任务中的提示内容以及听写结果。本发明专利技术通过多个卷积深度神经网络,实现手势与听写设备进行交互,提高识别的准确度,加快识别速度,增强了用户的使用体验。

【技术实现步骤摘要】
基于AI视觉下的听写交互方法、系统、装置
本专利技术涉及人工智能识别交互领域,具体涉及基于AI视觉下的听写交互方法、系统、装置。
技术介绍
语言学习中的文字听写是学习过程中的重要环节,现有的工具都需要人为手动输入所要听写的内容,或者人为口述听写内容,且听写内容需要提前备好,因此效果较低。深度学习和大数据的发展大大提高了人工智能方法在图像识别、手势识别和文字识别的性能。通过人工智能的方法将手势识别和文字识别等技术应用到语言学习中的听写中,能够很大程度提高人们的语言学习效率。现有技术中,一种基于人工智能的儿童绘本辅助阅读方法,包括:逐页拍摄书页图像,制作书页图像模板,保存书页图像特征;通过摄像头拍摄书页图像,提取书页图像的纹理特征,与模板进行匹配,判断书页页码;根据书页页码载入当前页面上的点读资源,点读资源包括绘本中的人物形象及其对应的音频故事和问答资源;检测动态手势的关键图像帧,抛弃模糊不清晰的手势图像帧;通过摄像头拍摄视频帧图像,检测儿童手指指向的点读资源处,则播放对应人物的故事;进入语音问答环节,根据当前页的内容匹配知识库中的问题,主动与儿童会话。上述方法可提供绘本的点读和问答,提高儿童学习兴趣和效率,能够在教学条件不足的场合,辅助儿童自行进行绘本阅读。然而,此项目虽然从原理上可以实现辅助儿童自行进行绘本阅读,但是,“用摄像机拍摄桌面场景,追踪桌面上的手的动作,比如手指的直线滑动,画图,手指伸出的个数,点击及拍击行为,用Al算法识别手势的意图”,达到上述效果采用的技术复杂、成本高、不具有可推广性,并且用Al算法识别的手势过多后,出错率非常高。还有一种基于卷积变分自编码器神经网络的手指静脉识别方法及系统,该系统包括图像采集模块、图像预处理模块、图像特征提取模块、图像训练模块和图像识别模块;识别方法包括获取待识别用户的手指静脉图像;对手指静脉图像信息进行图像预处理,提取手指静脉感兴趣区域(ROI)图像;通过卷积变分自编码器神经网络提取所述手指静脉感兴趣区域中的手指静脉特征编码;将特征编码输入到一个全连接网络中进行识别处理,识别所述待识别用户的身份信息。本专利技术能够有效地提取手指静脉特征,提高了对噪声的冗余性,明显改善手指静脉识别系统的识别精度。这种方法仅仅是用于提升识别手指的精度,并不能获知其手指的运动区域,更无法获知运动区域作为识别区域,有方案给出其识别区域如何进行信息解读。因此,现有技术中实现手指定位识别是通过采集装置获得图像,再对图像进行分割获得特征点再做比对,整个识别的效率非常低,费时长。
技术实现思路
本申请提供一种基于AI视觉下的听写交互方法、系统、装置被配置为解决现有技术中的语言学习中的听写实现操作繁琐、识别速度慢、效率低的技术问题。为解决上述问题,本专利技术提供的第一种的技术方案为:本专利技术提供了一种基于AI视觉下的听写交互方法,所述方法包括:S100:实时获取采集的包括可识别的动作信息和文字信息的目标图像;S200:构建并训练多个卷积深度神经网络和循环深度神经网络或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息;S300:根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;S400:控制播放所述听写任务的听写内容;S500:控制显示所述听写任务中的提示内容以及听写结果。进一步优选地,还包括:根据识别出的所述动作信息制作所述听写任务时,将识别出的所述文字信息存储为制作所述听写任务之一的听写内容;根据识别出的所述动作信息执行所述听写任务时,进一步包括:接收用户对所述听写任务的选择;播放所选的所述听写任务的听写内容;实时采集目标图像,后识别所述目标图像;接收识别出的所述目标图像中的所述文字信息,将识别出的所述文字信息与所选听写任务中的听写内容进行对比分析;显示出对比分析结果。进一步优选地,在所述步骤S200中,进一步包括:接收实时采集的视场范围内的所述目标图像;根据所述卷积深度神经网络对所述目标图像进行识别,包括对所要识别的所述文字信息进行定位操作的指定动作,所述指定动作包括包括单指操作手势、双指操作手势、多指操作手势中的任意一种或多种。进一步优选地,所述步骤S200中,进一步还包括:接收若干目标图像,利用若干目标图像训练卷积深度神经网络、循环深度神经网络、基于自注意力机制的Transformer深度神经网络的组合结构,识别所述指定动作下的位置图像,以及将所述目标图像压缩至寻找所述指定动作的预设低像素分辨率的特征图像。进一步优选地,所述步骤S200中,构建多个卷积深度神经网络包括:构建多个并行协同工作的定位神经网络、角度识别神经网络、文本检测神经网络以及OCR识别神经网络。进一步优选地,根据所述卷积深度神经网络,识别所述目标图像中的所述动作信息和所述文字信息的方法包括步骤:S210:构建多个并行协同工作的定位神经网络、角度识别神经网络、文本检测神经网络以及OCR识别神经网络;S220:利用所述定位神经网络进行所述指定动作的位置跟踪,以对所述指定动作的精确定位;S230:获取对所述指定动作的定位,包括以所述指定动作为中心,截取预设大小的区域图像,输入所述角度识别神经网络,输出图像区域中文本的旋转角度;S240:判断所述旋转角度是否为0,若所述旋转角度不为0时,以所述指定动作为中心,旋转所述旋转角度,截取预设大小的区域图像,否则,直接截取预设大小的区域图像,输入所述文本检测神经网络,输出检测到的文字区域的位置信息和尺寸信息;S250:通过所述文字区域的位置信息和尺寸信息截取对应的图像,输入所述OCR识别神经网络,输出已识别的文字内容。为解决上述问题,本专利技术提供的第二种的技术方案为:本专利技术提供了一种基于AI视觉下的听写交互系统,采用如上述任意一项所述的基于AI视觉下的听写交互方法,所述系统包括获取模块、识别模块、处理模块、显示模块、语音模块;所述识别模块与所述获取模块、所述处理模块电性连接,所述处理模块分别与所述显示模块、所述语音模块电性连接;所述获取模块,用于实时获取采集的包括可识别的动作信息和文字信息的目标图像;;所述识别模块,用于用于构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息;所述处理模块,用于根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;所述语音模块,用于控制播放所述听写任务的听写内容;所述显示模块,用于控制显示所述听写任务中的提示内容以及听写结果本文档来自技高网
...

【技术保护点】
1.基于AI视觉下的听写交互方法,其特征在于,所述方法包括:/nS100:实时获取采集的包括可识别的动作信息和文字信息的目标图像;/nS200:构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息;/nS300:根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;/nS400:控制播放所述听写任务的听写内容;/nS500:控制显示所述听写任务中的提示内容以及听写结果。/n

【技术特征摘要】
1.基于AI视觉下的听写交互方法,其特征在于,所述方法包括:
S100:实时获取采集的包括可识别的动作信息和文字信息的目标图像;
S200:构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息;
S300:根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;
S400:控制播放所述听写任务的听写内容;
S500:控制显示所述听写任务中的提示内容以及听写结果。


2.如权利要求1所述的基于AI视觉下的听写交互方法,其特征在于,所述步骤S300中,还包括:
根据识别出的所述动作信息制作所述听写任务时,将识别出的所述文字信息存储为制作所述听写任务之一的听写内容;
根据识别出的所述动作信息执行所述听写任务时,进一步包括:
接收用户对所述听写任务的选择;
播放所选的所述听写任务的听写内容;
实时采集目标图像,后识别所述目标图像;
接收识别出的所述目标图像中的所述文字信息,将识别出的所述文字信息与所选听写任务中的听写内容进行对比分析;
显示出对比分析结果。


3.如权利要求1所述的基于AI视觉下的听写交互方法,其特征在于,在所述步骤S200中,进一步包括:
接收实时采集的视场范围内的所述目标图像;
根据所述卷积深度神经网络对所述目标图像进行识别,包括对所要识别的所述文字信息进行定位操作的指定动作,所述指定动作包括包括单指操作手势、双指操作手势、多指操作手势中的任意一种或多种。


4.如权利要求3所述的基于AI视觉下的听写交互方法,其特征在于,所述步骤S200中,进一步还包括:接收若干目标图像,利用若干目标图像训练卷积深度神经网络、循环深度神经网络、基于自注意力机制的Transformer深度神经网络的组合结构,识别所述指定动作下的位置图像,以及将所述目标图像压缩至寻找所述指定动作的预设低像素分辨率的特征图像。


5.如权利要求4所述的基于AI视觉下的听写交互方法,其特征在于,所述步骤S200中,构建多个卷积深度神经网络包括:构建多个并行协同工作的定位神经网络、角度识别神经网络、文本检测神经网络以及OCR识别神经网络。


6.如权利要求5所述的基于AI视觉下的听写交互方法,其特征在于,根据所述卷积深度神经网络,识别所述目标图像中的所述动作信息和所述文字信息的方法包括步骤:
S210:构建多个并行协同工作的定位神经网络、角度识别神经网络、文本检测神经网络以及OCR识别神经网络;
S220:利用所述定位神经网络进行所述指定动作的位置跟踪,以对所述指定动作的精确定位;
S230:获取对所述指定动作的定位,包括以所述指定动作为中心,截取预设大小的区域图像,输入所述角度识别神经网络,输出图像区域中文本的旋...

【专利技术属性】
技术研发人员:高旻昱范骁骏侯瑞
申请(专利权)人:上海翎腾智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1