【技术实现步骤摘要】
基于干净数据集与关键特征检测的噪声识别方法
[0001]本专利技术涉及图像识别,特别是涉及视频分类任务中基于干净数据集与关键特征检测的噪声识别方法。
技术介绍
[0002]缩略语和术语:
[0003]带噪学习:这个任务是指在包含噪声标签的数据集上训练一个高精度深度神经网络。深度神经网络的训练通常依赖于海量的人工标注的样本,而在实际应用中,获取大量的干净样本耗时耗力,在某些特定场景(如医疗场景)下也不切实际,数据集中总是不可避免地会引入噪声样本。例如,在众包场景下,研究者或者企业通常会委托数名标注员标注特定的数据集,但是由于标注员水平不一或者其他原因,最后标注好的数据中总是包含一定的噪声。除此之外,有一种低成本的数据获取方式为直接利用搜索引擎搜索关键词,但是搜索引擎返回的样本中包含大量的噪声样本。
[0004]噪声检测方法:噪声检测方法是指通过使用某些特定的指标或者方法对含有噪声的数据集进行清洗,并且得到一个净化后的数据集。该数据集将被用于后续的模型训练任务。
[0005]视频分类:视频分类是根据待分类 ...
【技术保护点】
【技术特征摘要】
1.一种视频数据中的噪声识别方法,其特征在于,包括如下步骤:S1、建立一个干净数据集用以对比噪声数据集的未知数据,并利用帧间信息对干净数据集和噪声数据集的样本特征完成降维,得到降维后的特征集合;S2、在降维后的特征空间里计算噪声数据集的待定样本与干净数据集的干净样本类中心的余弦相似度;S3、比较待定样本与干净样本类中心的余弦相似度,并根据余弦相似度计算待定样本为干净样本的概率,并将概率大于预定概率阈值的样本划分为干净样本。2.如权利要求1所述的噪声识别方法,其特征在于,利用帧间时序信息以检测噪声数据集的噪声样本。3.如权利要求1或2所述的噪声识别方法,其特征在于,噪声数据集的表征集为其中x
i
∈R
d
,x
i
表示视频中一个片段的表征,M代表样本的数量,干净数据集的表征集C为干净数据集中每一个类别的干净样本个数,K表示类别的数量;分类任务的目标为找到表征x
i
属于哪一个类。4.如权利要求3所述的噪声识别方法,其特征在于,x
i
的标签a
i
表示为一个独热编码y
i
∈{0,1}
K
,y
i
的第k个元素y
k
被赋值为1,其余的元素会被赋值为0;其中,在带共识函数的特征提取器f(
·
)的后面使用一个带Softmax操作的分类头g(
·
),以预测x
i
属于第k类的概率:p(k
│
x
i
)=g(x
i
;k)。5.如权利要求1至4任一项所述的噪声识别方法,其特征在于,对于一个表征x
i
,确定此表征x
i
的显著特征的集...
【专利技术属性】
技术研发人员:袁春,王子啸,
申请(专利权)人:清华大学深圳国际研究生院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。