【技术实现步骤摘要】
基于AI视觉下的听写交互方法、系统、装置
本专利技术涉及人工智能识别交互领域,具体涉及基于AI视觉下的听写交互方法、系统、装置。
技术介绍
语言学习中的文字听写是学习过程中的重要环节,现有的工具都需要人为手动输入所要听写的内容,或者人为口述听写内容,且听写内容需要提前备好,因此效果较低。深度学习和大数据的发展大大提高了人工智能方法在图像识别、手势识别和文字识别的性能。通过人工智能的方法将手势识别和文字识别等技术应用到语言学习中的听写中,能够很大程度提高人们的语言学习效率。现有技术中,一种基于人工智能的儿童绘本辅助阅读方法,包括:逐页拍摄书页图像,制作书页图像模板,保存书页图像特征;通过摄像头拍摄书页图像,提取书页图像的纹理特征,与模板进行匹配,判断书页页码;根据书页页码载入当前页面上的点读资源,点读资源包括绘本中的人物形象及其对应的音频故事和问答资源;检测动态手势的关键图像帧,抛弃模糊不清晰的手势图像帧;通过摄像头拍摄视频帧图像,检测儿童手指指向的点读资源处,则播放对应人物的故事;进入语音问答环节,根据当前页的内容匹配知识库中的问题,主动与儿童会话。上述方法可提供绘本的点读和问答,提高儿童学习兴趣和效率,能够在教学条件不足的场合,辅助儿童自行进行绘本阅读。然而,此项目虽然从原理上可以实现辅助儿童自行进行绘本阅读,但是,“用摄像机拍摄桌面场景,追踪桌面上的手的动作,比如手指的直线滑动,画图,手指伸出的个数,点击及拍击行为,用Al算法识别手势的意图”,达到上述效果采用的技术复杂、成本高、不 ...
【技术保护点】
1.基于AI视觉下的听写交互方法,其特征在于,所述方法包括:/nS100:实时获取采集的包括可识别的动作信息和文字信息的目标图像;/nS200:构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息;/nS300:根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;/nS400:控制播放所述听写任务的听写内容;/nS500:控制显示所述听写任务中的提示内容以及听写结果。/n
【技术特征摘要】
1.基于AI视觉下的听写交互方法,其特征在于,所述方法包括:
S100:实时获取采集的包括可识别的动作信息和文字信息的目标图像;
S200:构建并训练多个卷积深度神经网络和循环深度神经网络,或基于自注意力机制的Transformer深度神经网络的组合结构,利用动态规划的公共子串匹配算法对多个针对手写字体识别的组合结构输出结果进行综合加权计算,识别所述目标图像中的所述动作信息和所述文字信息;
S300:根据识别的动作信息,执行控制制作听写任务或控制执行听写任务;
S400:控制播放所述听写任务的听写内容;
S500:控制显示所述听写任务中的提示内容以及听写结果。
2.如权利要求1所述的基于AI视觉下的听写交互方法,其特征在于,所述步骤S300中,还包括:
根据识别出的所述动作信息制作所述听写任务时,将识别出的所述文字信息存储为制作所述听写任务之一的听写内容;
根据识别出的所述动作信息执行所述听写任务时,进一步包括:
接收用户对所述听写任务的选择;
播放所选的所述听写任务的听写内容;
实时采集目标图像,后识别所述目标图像;
接收识别出的所述目标图像中的所述文字信息,将识别出的所述文字信息与所选听写任务中的听写内容进行对比分析;
显示出对比分析结果。
3.如权利要求1所述的基于AI视觉下的听写交互方法,其特征在于,在所述步骤S200中,进一步包括:
接收实时采集的视场范围内的所述目标图像;
根据所述卷积深度神经网络对所述目标图像进行识别,包括对所要识别的所述文字信息进行定位操作的指定动作,所述指定动作包括包括单指操作手势、双指操作手势、多指操作手势中的任意一种或多种。
4.如权利要求3所述的基于AI视觉下的听写交互方法,其特征在于,所述步骤S200中,进一步还包括:接收若干目标图像,利用若干目标图像训练卷积深度神经网络、循环深度神经网络、基于自注意力机制的Transformer深度神经网络的组合结构,识别所述指定动作下的位置图像,以及将所述目标图像压缩至寻找所述指定动作的预设低像素分辨率的特征图像。
5.如权利要求4所述的基于AI视觉下的听写交互方法,其特征在于,所述步骤S200中,构建多个卷积深度神经网络包括:构建多个并行协同工作的定位神经网络、角度识别神经网络、文本检测神经网络以及OCR识别神经网络。
6.如权利要求5所述的基于AI视觉下的听写交互方法,其特征在于,根据所述卷积深度神经网络,识别所述目标图像中的所述动作信息和所述文字信息的方法包括步骤:
S210:构建多个并行协同工作的定位神经网络、角度识别神经网络、文本检测神经网络以及OCR识别神经网络;
S220:利用所述定位神经网络进行所述指定动作的位置跟踪,以对所述指定动作的精确定位;
S230:获取对所述指定动作的定位,包括以所述指定动作为中心,截取预设大小的区域图像,输入所述角度识别神经网络,输出图像区域中文本的旋...
【专利技术属性】
技术研发人员:高旻昱,范骁骏,侯瑞,
申请(专利权)人:上海翎腾智能科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。