【技术实现步骤摘要】
一种数据处理方法及装置
本申请涉及互联网
,尤其涉及一种数据处理方法及装置。
技术介绍
人工智能技术近来得到广泛的发展和应用,各种神经网络技术的研究和应用成为技术热点。例如,在自动驾驶技术中,深度神经网络(DNN)或卷积神经网络(CNN)广泛应用于车辆、行人、交通灯检测等感知计算。为使得神经网络能够高质量的处理交通环境中的各信息,该用于信息处理的神经网络往往较为复杂,具体表现为:神经网络参数较多和数据处理复杂程度高。这就使得神经网络所需的储存空间和计算成本均较高。若将神经网络应用在无人车、智能终端等容量和计算能力均十分有限,且对数据处理质量要求较高的硬件环境中,将严重影响神经网络的功能的发挥、影响对数据处理的结果的使用,进而影响用户体验。由此,如何有效的对神经网络的至少部分参数进行压缩,降低神经网络处理数据杂程度,并避免对神经网络的性能的造成影响,成为亟待解决的问题。
技术实现思路
本说明书实施例提供一种数据处理的方法及装置,以部分的解决现有技术存在的上述问题。本说明书实施例 ...
【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n确定预先训练的神经网络、预设的样本以及第一量化模型;/n采用待训练的第二量化模型对所述预先训练的神经网络的至少部分参数进行量化,得到第一待定神经网络;所述待训练的第二量化模型是根据所述第一量化模型生成的;/n将所述样本输入所述第一待定神经网络,得到所述第一待定神经网络输出的处理结果,作为中间结果;/n根据所述中间结果和所述样本对应的标签,确定所述第一待定神经网络的损失,作为中间损失;/n以所述中间损失最小化,且所述中间损失的梯度最大化为训练目标,训练所述待训练的第二量化模型,得到训练后的第二量化模型;/n采用所述训练后的第 ...
【技术特征摘要】 【专利技术属性】
1.一种数据处理方法,其特征在于,所述方法包括:
确定预先训练的神经网络、预设的样本以及第一量化模型;
采用待训练的第二量化模型对所述预先训练的神经网络的至少部分参数进行量化,得到第一待定神经网络;所述待训练的第二量化模型是根据所述第一量化模型生成的;
将所述样本输入所述第一待定神经网络,得到所述第一待定神经网络输出的处理结果,作为中间结果;
根据所述中间结果和所述样本对应的标签,确定所述第一待定神经网络的损失,作为中间损失;
以所述中间损失最小化,且所述中间损失的梯度最大化为训练目标,训练所述待训练的第二量化模型,得到训练后的第二量化模型;
采用所述训练后的第二量化模型,对所述预先训练的神经网络的至少部分参数进行量化,得到第二待定神经网络;
根据所述预设的样本,以采用第二待定神经网络对所述样本进行处理时的损失最小化为训练目标,对第二待定神经网络进行调整,得到第三待定神经网络;
当需要对待处理数据进行处理时,采用所述第一量化模型对所述第三待定神经网络进行量化,得到量化神经网络,将所述待处理数据输入所述量化神经网络,得到对所述待处理数据的处理结果。
2.如权利要求1所述的方法,其特征在于,所述第二量化模型包括:用于对所述神经网络的权重进行量化的量化第一子模型;
采用所述待训练的第二量化模型对所述预先训练的神经网络的至少部分参数进行量化,得到第一待定神经网络,具体包括:
采用所述待训练的量化第一子模型对所述预先训练的神经网络的权重进行量化,得到权重量化后的神经网络,作为第一待定神经网络。
3.如权利要求2所述的方法,其特征在于,所述第二量化模型包括:用于对所述神经网络生成的至少部分激活值进行量化的量化第二子模型;
将所述样本输入所述第一待定神经网络,得到所述第一待定神经网络输出的处理结果,具体包括:
将所述样本输入所述第一待定神经网络;
针对所述第一待定神经网络的每个层,采用所述量化第二子模型对该层输出的激活值进行量化,得到该层输出的量化后的激活值;
根据每个层输出的量化后的激活值,得到第一待定神经网络输出的处理结果。
4.如权利要求1-3任一所述的方法,其特征在于,以所述中间损失最小化,且所述中间损失的梯度最大化为训练目标,训练所述待训练的第二量化模型,得到训练后的第二量化模型,具体包括:
将所述样本输入所述预先训练的神经网络,得到所述预先训练的神经网络输出的处理结果,作为参考结果;
根据所述参考结果和所述样本对应的标签,确定所述预先训练的神经网络处理所述样本时的参考损失;
根据所述参考损失和所述中间损失,确定通过所述待训练的第二量化模型量化该预先训练的神经网络造成的量化损失;
以所述量化损失最小化,且所述中间损失的梯度最大化为训练目标,训练所述待训练的第二量化模型,得到训练后的第二量化模型。
5.如权利要求4所述的方法,其特征在于,根据所述参考损失和所述中间损失,确定通过所述待训练的第二量化模型量化该预先训练的神经网络造成的量化损失,具体包括:
根据所述参考损失,确定所述参考损失的梯度;
确定所述参考损失的梯度和所述中间损失的梯度之间的差异;
根据所述差异和所述中间损失的梯度,确定通过所述待训练的量化模型量化该神经网络的量化损失,其中,所述量化损失与所述差异正相关,所述量化损失与所述中间损失的梯度负相关。
技术研发人员:刘宇达,申浩,王赛,王子为,鲁继文,周杰,
申请(专利权)人:北京三快在线科技有限公司,清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。