一种半监督多视角数据集在线学习模型及其设计方法技术

技术编号:23892591 阅读:28 留言:0更新日期:2020-04-22 07:05
本发明专利技术公开了一种半监督多视角数据集在线学习模型及其设计方法,该模型包括:依次相连的多视角数据收集模块、缺失样本信息修复模块、有效样本信息增强模块及在线学习模型修正模块;所述在线学习模型修正模块用于对某一时间段中信息获得修复和增强后的样本,将其在所有视角下的特征根据前后时间段的对比,并划分为下一时间段被保留的特征、下一时间段被丢弃的特征和当前时间段新增的特征三部分;针对所划分的三部分特征建立实时优化函数,并进行求解和优化权向量;对下一时间段的保留特征做融合处理,从而得到相应的融合形式。将本发明专利技术应用于港口等领域中,能够有效提升在实际场景中处理实时产生的具有可变特征的半监督多视角数据集的能力。

【技术实现步骤摘要】
一种半监督多视角数据集在线学习模型及其设计方法
本专利技术涉及多视角学习
,具体涉及一种半监督多视角数据集在线学习模型及其设计方法。
技术介绍
在全面打造“智慧城市”的过程中,人们需要处理的数据集往往具有多种表现形式或来源。这类数据集被称为多视角数据集,一种表现形式或来源就是一个视角(如网页数据集中的文本、图像、视频),而任一视角中所包含的不同种类的信息则被称为特征(如文本视角中的文本颜色、文本大小、文本粗细)。不同于表现形式或来源单一的单视角数据集,由于多视角数据集本身结构相对复杂,所以处理难度更高,一般需要通过基于该类数据集而提出的多视角分类器来解决。另外,就多视角数据集的特征而言,还进一步分为全局特征和局部特征。前者也被称为粗粒度特征,主要用于模糊匹配并描述主要特征信息,如轮廓、颜色等整体信息;后者又被称为细粒度特征,主要用于精细匹配并描述细节信息,如集装箱某一位置的特殊标记、特殊生物对应的光谱谱图上的某处信息等。由于局部特征对样本之间的微小差异更敏感,所以当前多视角分类器在设计时会更多的考虑局部特征。然而,在海关、港口、交通等领域中,受限于采样技术、人力成本、存储容量等客观因素,会造成处理的多视角数据集呈现特殊化,具体表现为:(1)视角或特征信息缺失:由于采样技术的限制,人们在采集多视角数据集时,会因人为疏忽或采集设备的故障,导致部分采集到的样本在某些视角或特征上信息不全,从而可能导致数据集缺失部分对分类器设计具有重要作用的视角或特征信息。举例而言,用四个摄像头对一个物体进行持续性拍摄并记录下颜色、大小、轮廓等特征信息从而采集数据集(本例中,一个摄像头的采样信息组成一个视角)。因为某一摄像头在某一时间段发生临时性故障无法工作,则该时间段内采集的物体样本就会失去一个视角的信息。若某一摄像头在某一时间段受到电磁干扰,则针对相关视角,该时间段内采集的信息会出现部分特征丢失的情况,如轮廓不清晰,大小信息并没有获得记录等;(2)有标签样本比重过小:由于人力成本的限制,对于大量真实多视角数据集而言,仅有一部分样本事先获得了标记,而大部分参与分类器设计的训练样本没有得到类别标记。通常,获得标记的样本被称为有标签样本,它们可以提供有利于分类器设计的先验知识,而没有标记的样本被称为无标签样本,它们提供的先验知识较少。因此,对于真实多视角数据集而言,由于有标签样本占比较低,导致它们通常具有的有效样本信息较少,而过多的无标签样本又可能干扰分类器设计,从而导致分类器性能受到影响;(3)实时产生且特征可变:随着大数据时代的到来,大量多视角数据集是实时产生的。另外,随着时间的推移,部分陈旧的视角、特征信息会被丢弃,部分重要的信息会始终保留,部分新的信息可能随着业务的需要而增加。但是受限于目前的科技能力,大多数中小型企业和科研院所拥有的存储容量有限,无法保存大规模的实时数据。另外,传统多视角分类器在训练时需要同时考虑所有训练样本,而且无法较好的处理可变特征的情况(此处,视角及每个视角中含有的特征变化统称为可变特征)。因此,实时产生的可变特征多视角数据集并不适合传统分类器。由于真实场景中,多视角数据集呈现特殊化,从而影响传统分类器的自动工作性能,并被迫需要过多的人工干预,从而降低真实场景中的作业效率。为处理这些特殊的多视角数据集,人们从传统的多视角分类器设计思想(包含协同训练、多核学习、子空间学习、多矩阵学习、间隔一致性等)转变到特殊多视角分类器设计,并提出了相应的处理方案。(1)针对缺失视角或特征的多视角数据集:由于人为疏忽或采集设备的故障,人们在收集多视角数据集的时候,会出现一些视角或特征信息的缺失。为了解决此类数据集,相关学者提出了一些解决方案。比如,文献[C.Xu,D.C.Tao,C.Xu,Multi-viewlearningwithincompleteviews,IEEETransactionsonImageProcessing,2015,24(12):5812-5825.]针对不完整视角的多视角数据集,提出了基于低秩假设矩阵的信息修复算法。文献[Q.Y.Yin,S.Wu,L.Wang,Unifiedsubspacelearningforincompleteandunlabeledmulti-viewdata,PatternRecognition,2017,67:313-327.]研究保持视角间和视角内的特征相似性算法,提出了基于统一子空间学习的信息修复算法。文献[L.Zhao,Z.K.Chen,Y.Yang,Z.J.Wang,V.C.M.Leung,Incompletemulti-viewclusteringviadeepsemanticmapping,Neurocomputing,2018,275:1053-1062.]提出了基于深度语义映射和亲和图的信息修复算法。这些算法的基本出发点都是通过优化模型获取每个视角的样本矩阵所对应的潜在表示形式和对应的系数矩阵,利用两者的乘积以恢复丢失的信息。(2)针对有标签样本比重过小的多视角数据集:由于人工成本的限制,对于真实场景中使用的大多数多视角数据集而言,在分类器训练之前就获得标记的样本所占的比例很小,这就使得相关多视角分类器在训练之初,可以获得的先验知识极其有限。因此针对这类有标签样本远少于无标签样本的多视角数据集,相关学者提出了一系列的算法,其中常用的是Universum学习系列。文献[V.N.Vapnik,S.Kotz,Estimationofdependencesbasedonempiricaldata,2006,Springer,NewYork,UnitedStates.]指出,Universum学习算法通过选择其他非目标类样本并不考虑其类别标签或选择并融合两个有标签样本的视角、特征信息,从而得到或生成一个新的无标签样本,即Universum样本。该样本会包含一定的先验知识。目前,Universum学习思想已经衍生到多个领域。比如,文献[X.H.Chen,H.J.Yin,F.Jiang,L.P.Wang,Multi-viewdimensionalityreductionbasedonUniversumlearning,Neurocomputing,2018,275:2279-2286.]提出基于Universum的典型关联分析算法,以更好地实现子空间统一表达方式。文献[P.Songsiri,V.Cherkassky,B.Kijsirikul,Universumselectionforboostingtheperformanceofmulticlasssupportvectormachinesbasedonone-versus-onestrategy,Knowledge-BasedSystems,2018,159:9-19.]提出了基于分布对称指标(distributiveandsymmetricindex,DSI)的Universum样本选择方案并用于支持向量机,从而减少参与最终分类器训练的样本数量并同时保持相对较高的分类性能。文献[B.Richhariya,D本文档来自技高网...

【技术保护点】
1.一种半监督多视角数据集在线学习模型,其特征在于,包括依次相连的多视角数据收集模块、缺失样本信息修复模块、有效样本信息增强模块及在线学习模型修正模块;/n所述多视角数据收集模块用于对收集的多视角数据集进行区域定位和标记处理,并进行存储;/n所述缺失样本信息修复模块用于针对多视角数据集的每个视角所对应的样本矩阵,计算样本矩阵所对应的低秩假设矩阵并建立该视角所对应的子分类器;将低秩假设矩阵分解为样本矩阵的潜在表示形式和系数矩阵并更新子分类器;进而得到用于反映修复信息数量的量表达式和用于反映修复信息的分类性能的质表达式;基于量表达式和质表达式构建量质平衡模型,进而建立优化函数并对该函数进行求解,得到各个视角的潜在表示形式和系数矩阵的优化结果,通过两者相乘得到信息修复后的多视角数据集;/n所述有效样本信息增强模块用于针对修复后的多视角数据集,采用多视角聚类算法以获得视角和特征的权重;计算任一选择的一个有标签样本和一个无标签样本之间的相似度;根据计算出的相似度和一个选择标准,选择合适的相似度所对应的有标签样本和无标签样本,并生成合适的Universum样本,从而增强有效的样本信息;/n所述在线学习模型修正模块用于对某一时间段中信息获得修复和增强后的样本,将其在所有视角下的特征根据前后时间段的对比,并划分为下一时间段被保留的特征、下一时间段被丢弃的特征和当前时间段新增的特征三部分;针对所划分的三部分特征建立实时优化函数,并进行求解和优化权向量;对下一时间段的保留特征做融合处理,从而得到相应的融合形式。/n...

【技术特征摘要】
1.一种半监督多视角数据集在线学习模型,其特征在于,包括依次相连的多视角数据收集模块、缺失样本信息修复模块、有效样本信息增强模块及在线学习模型修正模块;
所述多视角数据收集模块用于对收集的多视角数据集进行区域定位和标记处理,并进行存储;
所述缺失样本信息修复模块用于针对多视角数据集的每个视角所对应的样本矩阵,计算样本矩阵所对应的低秩假设矩阵并建立该视角所对应的子分类器;将低秩假设矩阵分解为样本矩阵的潜在表示形式和系数矩阵并更新子分类器;进而得到用于反映修复信息数量的量表达式和用于反映修复信息的分类性能的质表达式;基于量表达式和质表达式构建量质平衡模型,进而建立优化函数并对该函数进行求解,得到各个视角的潜在表示形式和系数矩阵的优化结果,通过两者相乘得到信息修复后的多视角数据集;
所述有效样本信息增强模块用于针对修复后的多视角数据集,采用多视角聚类算法以获得视角和特征的权重;计算任一选择的一个有标签样本和一个无标签样本之间的相似度;根据计算出的相似度和一个选择标准,选择合适的相似度所对应的有标签样本和无标签样本,并生成合适的Universum样本,从而增强有效的样本信息;
所述在线学习模型修正模块用于对某一时间段中信息获得修复和增强后的样本,将其在所有视角下的特征根据前后时间段的对比,并划分为下一时间段被保留的特征、下一时间段被丢弃的特征和当前时间段新增的特征三部分;针对所划分的三部分特征建立实时优化函数,并进行求解和优化权向量;对下一时间段的保留特征做融合处理,从而得到相应的融合形式。


2.如权利要求1所述的半监督多视角数据集在线学习模型,其特征在于,所述多视角数据收集模块包括:
图像自动定位和标记子模块,用于对收集的多视角数据集进行区域定位和标记处理;
数据库存储子模块,与所述图像自动定位和标记子模块相连,用于存储处理后的多视角数据集。


3.如权利要求1所述的半监督多视角数据集在线学习模型,其特征在于,所述缺失样本信息修复模块包括:
量计算子模块,用于根据多视角数据集所对应的低秩假设矩阵的表达式,计算得到用于反映修复信息数量的量表达式;
质计算子模块,用于根据多视角数据集的每个视角下的特征所建立的视角的子分类器,计算得到用于反映修复信息的分类性能的质表达式;
信息修复子模块,用于对基于量表达式和质表达式构建的量质平衡模型建立优化函数并对该函数进行求解,得到各个视角的潜在表示形式和系数矩阵的优化结果,通过两者相乘得到信息修复后的多视角数据集。


4.如权利要求1所述的半监督多视角数据集在线学习模型,其特征在于,所述有效样本信息增强模块包括:...

【专利技术属性】
技术研发人员:朱昌明
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1