语音辅助的视听协同学习新目标网络模型的构建方法技术

技术编号:23985480 阅读:215 留言:0更新日期:2020-04-29 13:19
本发明专利技术公开了一种语音辅助的视听协同学习新目标网络模型的构建方法,包括步骤S1‑S11,本发明专利技术基于传统的对象识别模型和图像特征匹配技术,通过初始对象识别模型对已知对象进行精确识别,若出现新对象,则通过在线学习模型对新对象进行特征记忆,并实时更新初始对象识别模型,使模型的泛化能力更强,更加适用现实场景的应用。

The construction method of new target network model of audio visual Cooperative Learning Assisted by voice

【技术实现步骤摘要】
语音辅助的视听协同学习新目标网络模型的构建方法
本专利技术涉及计算机视觉
,具体涉及一种语音辅助的视听协同学习新目标网络模型的构建方法。
技术介绍
随着计算机视觉的快速发展,对象识别技术已经应用到了各个领域,且带来了巨大的经济效益。近年来,出现了不少的对象识别网络模型,它们的识别准确度不断地得到提升,但有一个共同的缺陷,就是必须提前准备图像数据集,针对已有的数据集进行训练,生成一个对象检测器。在实际应用中,对象的种类有很多,很多图像数据收集不到或者很难得到。在一些场景中,事先并不知道该准备哪些类别的图像数据,这就导致传统的网络模型很难应用到实际场景中。图像的特征匹配技术可以对两种图像进行匹配,当没有足够的训练数据时,该技术具有很强的应用价值,虽然泛化能力较弱,但在一些特定的场景中也能得到很好地应用。一个好的对象识别模型应该和人一样,具有自主学习和引导学习的能力,对已学习到的对象可以精确识别,对于新对象通过人的引导可以记忆学习,并不断更新模型的知识储备,使模型变得更加智能化。针对已有技术,本专利技术给出一种语音辅助的视听协同学习新目标的网络模型,它具有在线学习新目标的功能,在一些特定场景(如家居机器人、巡检机器人等)中具有重要的应用价值,将推动该领域的发展。
技术实现思路
针对现有技术的上述不足,本专利技术提供了一种解决现有网络模型不具备在线学习新目标缺陷的语音辅助的视听协同学习新目标网络模型的构建方法。为达到上述专利技术目的,本专利技术所采用的技术方案为:提供一种语音辅助的视听协同学习新目标网络模型的构建方法,其包括以下步骤:S1:搭建用于原始对象识别的原始对象分类器M1和用于提取对象的特征向量的对象特征提取模型M2;S2:创建用于保存新对象的特征向量的对象特征向量库B1和用于保存新对象的图像数据集的新对象图像库B2;S3:输入新图像picture,加载原始对象分类器M1对新图像picture进行对象识别;S4:若新图像picture中不存在未识别的对象,则停止操作;若存在未识别的对象(object-1、……、object-m)时,则加载对象特征提取模型M2对未识别的对象(object-1、……、object-m)进行特征提取,将提取到的特征向量集R中的每一个特征向量分别与特征向量库B1中每一个特征向量进行特征匹配;S5:若匹配时存在匹配的最高置信度most-value高于置信度基础值base-value的对象,则判定该对象正确识别,反之则判定该对象为新对象object;S6:通过语音辅助进行人机交互,对新对象object的显性特征进行语音描述,为新对象object打上语音标签,得到新图像image;S7:对新图像image进行图像增广,得到增广后的图像(image-1、image-2、……、image-n),并保存到新对象图像库B2中;S8:加载对象特征提取模型M2,对新图像image中的新对象object进行特征提取,并将得到的特征向量feature保存到特征向量库B1中;S9:遍历新对象图像库B2,判断是否有新对象的数据集量达到训练要求的数据集量N;S10:若是,则将该新对象的数据集N与原始对象分类器M1的数据集进行合并,并利用合并的数据集训练新的对象分类器替换原始对象分类器M1,并删除新对象图像库B2中该新对象特征的图像数据集;S11:否则,则重复步骤S3-S9,直到有新对象的数据集量达到训练要求的数据集量N。进一步地,搭建用于原始对象识别的原始对象分类器M1的方法包括:A11:根据实际应用场景,利用图像数据集生成训练图像集images-input1;A12:创建残差卷积神经网络ResNet来提取训练图像集images-input1中图像的图像特征feature-maps,残差卷积神经网络ResNet由卷积层conv1、relu1层和池化层pooling1组成;A13:创建RPN网络生成图像候选区域region-proposals,并输入图像特征feature-maps,通过Softmax判断图像特征feature-maps属于前景还是后景,并对候选区域region-proposal进行修正,生成准确的候选区域proposals1;A14:利用候选区域proposals1和图像特征feature-maps,生成一个固定大小的特征区域proposal-feature-maps。A15:将固定大小的特征区域proposal-feature-maps进行全连接,利用Softmax进行对象分类,计算损失Loss,并修正损失Loss,实现原始对象的精确分类。进一步地,搭建用于提取对象的特征向量的对象特征提取模型M2的方法包括:B11:准备具有若干类型的图像数据Data1作为训练数据集images-input2;B12:加载训练数据集images-input2,预训练自主RPN网络模型RPN-model,输出对象候选区域proposals2;B13:预训练特征提取网络模型con-model,加载训练数据集images-input2,特征提取网络模型con-model由卷积层conv2、relu2层、池化层pooling2和全连接层FC组成。B14:对对象候选区域proposals2进行修正,然后分别输入到特征提取网络模型con-model中进行特征提取,得到每个候选区域的图像特征feature-maps。进一步地,特征提取网络模型con-model的卷积层conv2为16层、relu2层为15层、池化层pooling2为5层,卷积层conv2使用多通道卷积操作,卷积核大小为3x3,填充大小为1,卷积步数为1,池化层pooling2使用滤波器大小为2x2,步长为2,类型为最大池化,全连接层FC为三层,且每层加入dropout机制。进一步地,残差卷积神经网络ResNet的卷积层conv1为49层、relu1层为49层、池化层pooling1为2层,卷积层conv1使用多通道卷积操作,卷积层conv1包含有1个7x7的卷积核、32个1x1的卷积核和16个3x3的卷积核,池化层pooling1使用一个3x3的最大滤波器和一个2x2的均值滤波器。进一步地,特征向量集R通过特征提取网络模型con-model中深层卷积层提取:第8层卷积层conv3-4后的特征矩阵为第12层卷积层conv4-4后的特征矩阵为第16层卷积层conv5-4后的特征矩阵为其中i=n/2,j=m/2,p=i/2,q=j/2,则特征矩阵函数MatToVec(T)将一个矩阵各行进行拼接,变为一个一维向量,参数T=(A/B/C)为一个矩阵;函数Pad(n)为补零操作,参数n代表补零的个数;特征向量R1=MatToVec(S1),特征向量集R=(R1,R2,...,Rs),矩阵A、B中的n、m分别为矩阵A、B的长和宽,p、q分本文档来自技高网...

【技术保护点】
1.一种语音辅助的视听协同学习新目标网络模型的构建方法,其特征在于,包括以下步骤:/nS1:搭建用于原始对象识别的原始对象分类器M1和用于提取对象的特征向量的对象特征提取模型M2;/nS2:创建用于保存新对象的特征向量的对象特征向量库B1和用于保存新对象的图像数据集的新对象图像库B2;/nS3:输入新图像picture,加载原始对象分类器M1对新图像picture进行对象识别;/nS4:若新图像picture中不存在未识别的对象,则停止操作;若存在未识别的对象(object-1、……、object-m)时,则加载对象特征提取模型M2对未识别的对象(object-1、……、object-m)进行特征提取,将提取到的特征向量集R中的每一个特征向量分别与特征向量库B1中每一个特征向量进行特征匹配;/nS5:若匹配时存在匹配的最高置信度most-value高于置信度基础值base-value的对象,则判定该对象正确识别,反之则判定该对象为新对象object;/nS6:通过语音辅助进行人机交互,对新对象object的显性特征进行语音描述,为新对象object打上语音标签,得到新图像image;/nS7:对新图像image进行图像增广,得到增广后的图像(image-1、image-2、……、image-n),并保存到新对象图像库B2中;/nS8:加载对象特征提取模型M2,对新图像image中的新对象object进行特征提取,并将得到的特征向量feature保存到特征向量库B1中;/nS9:遍历新对象图像库B2,判断是否有新对象的数据集量达到训练要求的数据集量N;/nS10:若是,则将该新对象的数据集N与原始对象分类器M1的数据集进行合并,并利用合并的数据集训练新的对象分类器替换原始对象分类器M1,并删除新对象图像库B2中该新对象特征的图像数据集;/nS11:否则,则重复步骤S3-S9,直到有新对象的数据集量达到训练要求的数据集量N。/n...

【技术特征摘要】
1.一种语音辅助的视听协同学习新目标网络模型的构建方法,其特征在于,包括以下步骤:
S1:搭建用于原始对象识别的原始对象分类器M1和用于提取对象的特征向量的对象特征提取模型M2;
S2:创建用于保存新对象的特征向量的对象特征向量库B1和用于保存新对象的图像数据集的新对象图像库B2;
S3:输入新图像picture,加载原始对象分类器M1对新图像picture进行对象识别;
S4:若新图像picture中不存在未识别的对象,则停止操作;若存在未识别的对象(object-1、……、object-m)时,则加载对象特征提取模型M2对未识别的对象(object-1、……、object-m)进行特征提取,将提取到的特征向量集R中的每一个特征向量分别与特征向量库B1中每一个特征向量进行特征匹配;
S5:若匹配时存在匹配的最高置信度most-value高于置信度基础值base-value的对象,则判定该对象正确识别,反之则判定该对象为新对象object;
S6:通过语音辅助进行人机交互,对新对象object的显性特征进行语音描述,为新对象object打上语音标签,得到新图像image;
S7:对新图像image进行图像增广,得到增广后的图像(image-1、image-2、……、image-n),并保存到新对象图像库B2中;
S8:加载对象特征提取模型M2,对新图像image中的新对象object进行特征提取,并将得到的特征向量feature保存到特征向量库B1中;
S9:遍历新对象图像库B2,判断是否有新对象的数据集量达到训练要求的数据集量N;
S10:若是,则将该新对象的数据集N与原始对象分类器M1的数据集进行合并,并利用合并的数据集训练新的对象分类器替换原始对象分类器M1,并删除新对象图像库B2中该新对象特征的图像数据集;
S11:否则,则重复步骤S3-S9,直到有新对象的数据集量达到训练要求的数据集量N。


2.根据权利要求1所述的语音辅助的视听协同学习新目标网络模型的构建方法,其特征在于,所述搭建用于原始对象识别的原始对象分类器M1的方法包括:
A11:根据实际应用场景,利用图像数据集生成训练图像集images-input1;
A12:创建残差卷积神经网络ResNet来提取训练图像集images-input1中图像的图像特征feature-maps,残差卷积神经网络ResNet由卷积层conv1、relu1层和池化层pooling1组成;
A13:创建RPN网络生成图像候选区域region-proposals,并输入图像特征feature-maps,通过Softmax判断图像特征feature-maps属于前景还是后景,并对候选区域region-proposal进行修正,生成准确的候选区域proposals1;
A14:利用候选区域proposals1和图像特征feature-maps,生成一个固定大小的特征区域proposal-feature-maps。
A15:将固定大小的特征区域proposal-feature-maps进行全连接,利用Softmax进行对象分类,计算损失Loss,并修正损失Loss,实现原始对象的精确分类。

【专利技术属性】
技术研发人员:苟先太康立烨钱照国张葛祥
申请(专利权)人:西南交通大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1