【技术实现步骤摘要】
一种深度神经网络的可解释生成方法
本专利技术涉及数据处理领域,具体涉及一种深度神经网络的可解释生成方法。
技术介绍
深度神经网络的研究推动了第三波人工智能的发展,在计算机图像领域的很多问题得到了很好的解决。但值得注意的是,深度神经网络由于其参数巨大,造成其设计和训练的复杂性高,从而增加了其应用的门槛。为了促进深度神经网络的广泛应用,大量研究人员公布了各自的预训练网络,包括网络的结构和预训练参数,普通使用者可以应用这些网络解决实际问题。但是,预训练网络在网络设计的时候通常考虑输出为所有可能类别的全集,并且针对特定数据集,比如图像领域的Cifar-10、Cifar-100和imagenet,分别包含了10类,100类和1000类图像的数据,但对于某些特定的应用场景来说,并不是每次都需要输出所有类别。通常情况下,由于分类类别越多,网络的规模越大,所以如果直接应用现有的预训练网络,即便是存在网络压缩方法,在计算上还是存在冗余。比如某用户需要建立一个区分猫和狗的二分类网络,如果直接应用Cifar-10的预训练的十分类网络,在实 ...
【技术保护点】
1.一种深度神经网络的可解释生成方法,其特征在于,包括:/nS1、挖掘推理路径:获取预训练网络和数据集,采用关键数据路由路径挖掘所述数据集中每一条数据在预训练网络的神经网络中对应的推理路径;/nS2、聚合推理路径:将同一类数据的推理路径进行聚合,得到该类数据对应的网络结构;/nS3、组合网络结构:将同一类数据对应的网络结构进行组合,得到针对特定任务进行推理的子网络。/n
【技术特征摘要】
1.一种深度神经网络的可解释生成方法,其特征在于,包括:
S1、挖掘推理路径:获取预训练网络和数据集,采用关键数据路由路径挖掘所述数据集中每一条数据在预训练网络的神经网络中对应的推理路径;
S2、聚合推理路径:将同一类数据的推理路径进行聚合,得到该类数据对应的网络结构;
S3、组合网络结构:将同一类数据对应的网络结构进行组合,得到针对特定任务进行推理的子网络。
2.如权利要求1所述的一种深度神经网络的可解释生成方法,其特征在于,步骤S1中所述关键数据路由路径的获取方法具体为:所述预训练网络每一层包含了若干通道,对于每一个通道,在通道后的ReLU激活之后设置一个控制门变量,并且在神经网络前向传播阶段,每个通道的输出均乘以控制门变量;对于任意输入x,定义如下Loss函数:
min(L(fθ(x),fθ(x;λ))+γ||λ||1)
其中,fθ为预训练网络,λ为控制门变量,fθ(x)为预训练网络的输出,fθ(x;λ)为增加了控制门变量之后的网络输出,L(fθ(x),fθ(x;λ))为预训练网络与增加控制门变量之后网络的KL损失,γ||λ||1为控制门变量的L1损失,γ为加权变量;固定预训练网络的所有参数,通过反向传播反复训练得到λ值;在反向传播过程中使用如下公式计算λ的梯度:
其包含了上述KL损失和L1损失;通过上述方法计算,得到每一个数据的CDRP向量λi,所述关键数据路由路径为CDRP。
3.如权利要求2所述的一种深度神经网络的可解释生成方法,其特征在于,步骤S1...
【专利技术属性】
技术研发人员:安竹林,胡小龙,程坦,徐勇军,
申请(专利权)人:中国科学院计算技术研究所厦门数据智能研究院,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。