基于深度学习的幼儿早教图像识别系统技术方案

技术编号:33851260 阅读:21 留言:0更新日期:2022-06-18 10:37
本发明专利技术涉及深度学习技术领域,尤其涉及一种基于深度学习的幼儿早教图像识别系统,用户只需要通过客户端拍照上传完成图像识别,采集到的图像经过服务器传入图像描述网络,经过卷积神经网络快速提取图像特征,再由注意力机制提取图像中重要的细节而舍去一些无关的信息,采用循环神经网络生成文本描述反馈给客户端,并通过TTS语音合成技术实现语音的播报,传递给孩子的信息更加多元、丰富、具体,其打破了传统的学习模式,除此之外用户还可以根据自己的需要自主采集和预设图片,更为灵活方便。更为灵活方便。更为灵活方便。

【技术实现步骤摘要】
基于深度学习的幼儿早教图像识别系统


[0001]本专利技术涉及深度学习
,尤其涉及一种基于深度学习的幼儿早教图像识别系统。

技术介绍

[0002]随着人们经济水平的不断提高,越来越多的人开始重视对孩子早期教育的培养。早教有很多种方式,除去将孩子送去幼儿园等早教机构之外,孩子在家的业余时间也是学习新知识的黄金时刻。目前市场的早教产品主要有两大类:(1)识物卡片。许多家长希望通过识物卡片来培养孩子认识事物的能力,但卡片存在较大的局限性:一是卡片能够传达给孩子信息太少,卡片上的事物都比较单一刻板,不贴近生活,孩子学到的东西比较有限;二是卡片的实用性不高。卡片内容的单调无趣会使得孩子很快就失去新鲜感,容易厌倦并丢弃;三是卡片的内容大多是静态的图片,需要父母陪同孩子去认知,而大部分时间父母缺少时间陪伴。(2)幼儿识物APP。目前市场大多数的识物APP制作界面复杂不利于孩子独立操作,且照搬了识物卡片的模式,与识物卡片大同小异。

技术实现思路

[0003]本专利技术的目的在于提供一种基于深度学习的幼儿早教图像识别系统,避免了现有的早教产品中的实物产品内容单调无法扩展,而软件产品界面复杂不易操作的技术问题。
[0004]为实现上述目的,本专利技术提供了一种基于深度学习的幼儿早教图像识别系统,包括若干个客户端、服务器和图像描述网络,每个所述客户端采集图片信息传输给所述服务器,所述客户端与所述服务器间通过HTTP协议进行数据通信,所述服务器将图像信息输入所述图像描述网络处理,并将处理后的信息返回给所述客户端
[0005]每个所述客户端包括摄像头、扬声器、屏幕和APP安卓端,所述摄像头负责采集图像数据并送到所述APP安卓端,所述APP安卓端负责与服务器传输数据,所述屏幕显示处理后的文本信息,所述扬声器播报文本信息转换的语音信息。
[0006]其中,所述图像描述网络包括Resnet

101网络和长短期记忆网络,所述Resnet

101网络对输入图像进行编码,所述长短期记忆网络负责解码以及生成输出字幕。
[0007]其中,所述图像描述网络的信息处理流程具体为先输入一张图片,图片经过Resnet

101网络获得一组特征向量,特征向量再输入到注意力模型中,注意力模型通过动态地重新加权输入空间特征,以在每个时间步集中于图像的特定区域,然后将注意力衍生图像特征输入到长短期记忆网络中,接着所述长短期记忆网络会根据上下文向量、之前的隐藏状态和之前生成的单词,在每个时间步骤生成一个单词,从而生成标题。
[0008]其中,所述Resnet

101网络包括101层网络,编码过程中不对图像进行缩放或裁剪,最后输出2048维的向量。
[0009]其中,所述长短期记忆网络中的记忆块包括输入门、输出门、遗忘门和记忆单元,所述记忆单元用于保存信息,所述输入门负责决定每一时刻是否有信息输入到记忆单元,
所述输出门决定每一时刻是否有信息从记忆单元输出,所述遗忘门决定记忆单元中的信息是否会被清除。
[0010]其中,所述基于深度学习的幼儿早教图像识别系统通过TTS语音合成技术实现语音的播报。
[0011]本专利技术提供了一种基于深度学习的幼儿早教图像识别系统,用户只需要通过客户端拍照上传完成图像识别,采集到的图像经过服务器传入图像描述网络,经过卷积神经网络快速提取图像特征,再由注意力机制提取图像中重要的细节而舍去一些无关的信息,采用循环神经网络生成文本描述反馈给客户端,并通过TTS语音合成技术实现语音的播报,传递给孩子的信息更加多元、丰富、具体,其打破了传统的学习模式,除此之外用户还可以根据自己的需要自主采集和预设图片,更为灵活方便。
附图说明
[0012]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1是本专利技术的一种基于深度学习的幼儿早教图像识别系统的运行流程示意图。
[0014]图2是HTTP协议的执行步骤示意图。
[0015]图3是本专利技术的图像描述网络的信息处理流程示意图。
[0016]图4是本专利技术的Resnet

101网络的网络构成图。
[0017]图5是本专利技术的长短期记忆网络在独立时刻的信息传递示意图。
[0018]图6是本专利技术的长短期记忆网络沿时间轴展开的信息传递示意图。
[0019]图7是本专利技术的长短期记忆网络的记忆块结构示意图。
[0020]图8是本专利技术的具体实施例中图像描述网络处理后的信息示意图。
具体实施方式
[0021]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0022]请参阅图1至图8,本专利技术提出了一种基于深度学习的幼儿早教图像识别系统,包括若干个客户端、服务器和图像描述网络,每个所述客户端采集图片信息传输给所述服务器,所述客户端与所述服务器间通过HTTP协议进行数据通信,所述服务器将图像信息输入所述图像描述网络处理,并将处理后的信息返回给所述客户端;
[0023]每个所述客户端包括摄像头、扬声器、屏幕和APP安卓端,所述摄像头负责采集图像数据并送到所述APP安卓端,所述APP安卓端负责与服务器传输数据,所述屏幕显示处理后的文本信息,所述扬声器播报文本信息转换的语音信息。
[0024]所述图像描述网络包括Resnet

101网络和长短期记忆网络,所述Resnet

101网络对输入图像进行编码,所述长短期记忆网络负责解码以及生成输出字幕
[0025]以下从相应的术语作进一步说明,部分带英文的术语后续会以英文表述简写名
称。
[0026]如图1所示,摄像头将采集的图像数据送到APP安卓端,APP安卓端接收到图像数据后通过HTTP网络协议(协议流程详见图2)将数据传送给服务器,服务器将数据传入图像描述网络进行翻译生成文本,生成的文本通过APP安卓端显示在屏幕上,从而使用户获得图像的文本信息,除此之外,生成的文本数据又经过TTS(Text

To

Speech)技术的转换,生成语音信息,并通过扬声器播报给用户。
[0027]请参阅图3,所述图像描述网络的信息处理流程具体为先输入一张图片,图片经过Resnet

101网络获得一组特征向量,特征向量再输入到注意力模型中,注意力模型不是使用静态的图像空间集合表示,而是动态地通过动态地重新加权输入空间特征,以在每个时间步集中于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的幼儿早教图像识别系统,其特征在于,包括若干个客户端、服务器和图像描述网络,每个所述客户端采集图片信息传输给所述服务器,所述客户端与所述服务器间通过HTTP协议进行数据通信,所述服务器将图像信息输入所述图像描述网络处理,并将处理后的信息返回给所述客户端;每个所述客户端包括摄像头、扬声器、屏幕和APP安卓端,所述摄像头负责采集图像数据并送到所述APP安卓端,所述APP安卓端负责与服务器传输数据,所述屏幕显示处理后的文本信息,所述扬声器播报文本信息转换的语音信息。2.如权利要求1所述的基于深度学习的幼儿早教图像识别系统,其特征在于,所述图像描述网络包括Resnet

101网络和长短期记忆网络,所述Resnet

101网络对输入图像进行编码,所述长短期记忆网络负责解码以及生成输出字幕。3.如权利要求2所述的基于深度学习的幼儿早教图像识别系统,其特征在于,所述图像描述网络的信息处理流程具体为先输入一张图片,图片经过Resnet

101网络获得一...

【专利技术属性】
技术研发人员:夏海英张致鑫陆智韦彬吴波黄嘉琪梁钟黄芷锟
申请(专利权)人:广西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1