一种数据处理方法、装置、系统及存储介质制造方法及图纸

技术编号:23892334 阅读:24 留言:0更新日期:2020-04-22 06:59
本发明专利技术提供了一种数据处理方法、装置、系统及存储介质,方法包括:从训练集中获取预定数量的训练数据作为当前轮训练数据子集,并基于当前轮训练数据子集对神经网络进行训练,确定当前轮的训练参数,当前轮训练数据子集包括N类训练样本集,N为正整数;根据训练参数确定下一轮训练数据子集中各类训练数据的占比;基于下一轮训练数据子集对神经网络进行训练,得到数据处理模型;利用数据处理模型对待处理数据进行分类,确定待处理数据的分类结果。根据本发明专利技术的方法、装置、系统及存储介质,通过计算当前轮训练的训练参数确定下一轮训练数据的各类数据的占比训练得到模型进行数据处理,提高了数据处理的效率和准确性。

【技术实现步骤摘要】
一种数据处理方法、装置、系统及存储介质
本专利技术涉及数据处理
,更具体地涉及图像处理。
技术介绍
目前基于深度学学习来进行数据处理应景普遍应用于各个方面,如图像处理中的人脸识别、行为识别等。而深度学习方法往往需要大量的训练数据,但实际应用中我们很可能由于条件限制等原因难以搜集到理想的数据,这时候就会出现所需的各类数据数量不均衡的情况,这对网络的收敛以及最终的效果都会产生影响。除此之外,即使所得数据各类已经达到了均衡,但对于用于数据处理的网络来说,部分类别可能是比较相近、或学习起来是十分困难的,在实际网络训练时,对于这些类别的准确率迟迟无法上升,影响网络的收敛速度,甚至影响网络最后对于这些类别的效果。因此,现有技术中的数据处理中效率低且准确性不高的问题。
技术实现思路
考虑到上述问题而提出了本专利技术。本专利技术提供了一种数据处理方法、装置、系统及计算机存储介质,通过计算当前轮训练的训练参数确定下一轮训练数据的各类数据的占比训练得到模型进行数据处理,提高了数据处理的效率和准确性。根据本专利技术的第一方面,提供了一种数据处理方法,包括:对神经网络进行训练,得到数据处理模型;利用所述数据处理模型对待处理数据进行分类,确定所述待处理数据的分类结果;其中,所述对神经网络进行训练,得到数据处理模型,包括:从训练集中获取预定数量的训练数据作为当前轮训练数据子集,并基于所述当前轮训练数据子集对所述神经网络进行训练,确定当前轮的训练参数,所述当前轮训练数据子集包括N类训练样本集,N为正整数;根据所述训练参数确定下一轮训练数据子集中各类训练数据的占比;基于所述下一轮训练数据子集对所述神经网络进行训练,得到所述数据处理模型。根据本专利技术的第二方面,提供了一种数据处理装置,包括:训练模块,用于对神经网络进行训练,得到数据处理模型;数据处理模块,用于利用所述数据处理模型对待处理数据进行分类,确定所述待处理数据的分类结果;其中,所述对神经网络进行训练,得到数据处理模型,包括:从训练集中获取预定数量的训练数据作为当前轮训练数据子集,并基于所述当前轮训练数据子集对所述神经网络进行训练,确定当前轮的训练参数,所述当前轮训练数据子集包括N类训练样本集,N为正整数;根据所述训练参数确定下一轮训练数据子集中各类训练数据的占比;基于所述下一轮训练数据子集对所述神经网络进行训练,得到所述数据处理模型。根据本专利技术的第三方面,提供了一种数据处理系统,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现第一方面所述方法的步骤。根据本专利技术的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机执行时实现第一方面所述方法的步骤。根据本专利技术实施例的数据处理方法、装置、系统及计算机存储介质,通过当前轮训练的训练参数确定下一轮训练数据的各类数据的占比训练得到数据处理模型,降低了对训练数据的要求,并有效提高了数据处理模型的训练速度和准确率。通过该数据处理模型对待处理数据进行处理,能提升数据处理的速度和精度。附图说明通过结合附图对本专利技术实施例进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本专利技术实施例的进一步理解,并且构成说明书的一部分,与本专利技术实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1是用于实现根据本专利技术实施例的数据处理方法和装置的示例电子设备的示意性框图;图2是根据本专利技术实施例的数据处理方法的示意性流程图;图3是根据本专利技术实施例的数据处理装置的示意性框图;图4是根据本专利技术实施例的数据处理系统的示意性框图。具体实施方式为了使得本专利技术的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本专利技术的示例实施例。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理解,本专利技术不受这里描述的示例实施例的限制。基于本专利技术中描述的本专利技术实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本专利技术的保护范围之内。首先,参考图1来描述用于实现本专利技术实施例的数据处理方法和装置的示例电子设备100。如图1所示,电子设备100包括一个或多个处理器101、一个或多个存储装置102、输入装置103、输出装置104、图像传感器105,这些组件通过总线系统106或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。所述处理器101可以是中央处理单元(CPU)或者具有数据处理能力或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。所述存储装置102可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本专利技术实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用或产生的各种数据等。所述输入装置103可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置104可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。所述图像传感器105可以拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置102中以供其它组件使用。示例性地,用于实现根据本专利技术实施例的数据处理方法和装置的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机设备等。为了提高数据处理的精度,在数据处理的模型训练阶段为了基于训练数据提升对模型精度,在一实施例中采用如下方法:(1)数据采集阶段,在最初数据搜集时就特别注意保证各类别样本的均衡,但对于困难样本该方法并不能准确定量分析难样本需要多少额外的数据量,实际操作起来较难;(2)数据增强阶段,对于数据量少、学习难度较大的类别,以复制或更高倍增强的方式对其进行数据量扩充,该方法同样难以判断最后样本的配比是否合适,可能导致网络过分关注(或关注不足)困难样本;(3)网络训练阶段,通过结果反馈对误差进行改变,从而适应困难样本,但经实验发现此类方法多少情况下并没有明显的效果。基于上述考虑,为了提升数据处理的效率和精度,提出本专利技术的数本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n对神经网络进行训练,得到数据处理模型;/n利用所述数据处理模型对待处理数据进行分类,确定所述待处理数据的分类结果;/n其中,所述对神经网络进行训练,得到数据处理模型,包括:/n从训练集中获取预定数量的训练数据作为当前轮训练数据子集,并基于所述当前轮训练数据子集对所述神经网络进行训练,确定当前轮的训练参数,所述当前轮训练数据子集包括N类训练样本集,N为正整数;/n根据所述训练参数确定下一轮训练数据子集中各类训练数据的占比;/n基于所述下一轮训练数据子集对所述神经网络进行训练,得到所述数据处理模型。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
对神经网络进行训练,得到数据处理模型;
利用所述数据处理模型对待处理数据进行分类,确定所述待处理数据的分类结果;
其中,所述对神经网络进行训练,得到数据处理模型,包括:
从训练集中获取预定数量的训练数据作为当前轮训练数据子集,并基于所述当前轮训练数据子集对所述神经网络进行训练,确定当前轮的训练参数,所述当前轮训练数据子集包括N类训练样本集,N为正整数;
根据所述训练参数确定下一轮训练数据子集中各类训练数据的占比;
基于所述下一轮训练数据子集对所述神经网络进行训练,得到所述数据处理模型。


2.如权利要求1所述的方法,其特征在于,根据所述训练参数确定下一轮训练数据子集中各类训练数据的占比,包括:
当所述训练参数满足预设条件时,计算所述当前轮训练数据子集的第k类训练样本集的平均误差,k=1,2,……,N;
根据所述当前轮训练数据子集的第k类训练样本集的平均误差计算得到所述下一轮训练数据子集中各类训练数据的占比。


3.如权利要求2所述的方法,其特征在于,计算所述当前轮训练数据子集的第k类训练样本集的平均误差,包括:
计算所述当前轮训练数据子集中第k类训练样本集的每个样本的误差;
根据所述第k类训练样本集的数量和所述第k类训练样本集的每个样本的误差得到所述当前轮训练数据子集的第k类训练样本集的平均误差。


4.如权利要求2所述的方法,其特征在于,据所述当前轮训练数据子集的第k类训练样本集的平均误差计算得到所述下一轮训练数据子集中各类训练数据的占比,包括:
计算所述当前轮训练数据子集中的所述N类训练样本集的平均误差之和;
将所述第k类训练样本集的平均误差在所述N类训练样本集的平均误差之和中的占比作为所述下一轮训练数据子集中各类训练数据的...

【专利技术属性】
技术研发人员:叶年进王光甫蒋霆刘帅成
申请(专利权)人:成都旷视金智科技有限公司北京旷视科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1